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Procede d'obtention d'acides nucleiques a partir d'un 
echantillon de I'environnement, acides nucleiques ainsi obtenus 
et leur application a la synthese de nouveaux composes 

5 La presente invention concerne un procede de preparation 

d'acides nucleiques a partir d'un 6chantillon de I'environnement, plus 
particulierement un procede d'obtention d'une collection d'acides 
nucleiques a partir d'un echantillon. L'invention est egalement relative 
aux acides nucleiques ou aux collections d'acides nucleiques obtenus 

10 selon le procede et leur application a la synthese de nouveaux 
composes, notamment de nouveaux composes d'interet therapeutique. 

L'invention a egalement pour objet les moyens nouveaux mis 
en oeuvre dans le procede d'obtention d'acides nucleiques ci-dessus, 
tels que de nouveaux vecteurs et des nouveaux precedes de preparation 

15 de tels vecteurs ou encore des cellules hotes recombinantes 
comprenant un acide nucleique de l'invention. 

L'invention concerne encore des procedes pour detecter un 
acide nucleique d'interet au sein d'une collection d'acides nucleiques 
obtenus selon le procede ci-dessus, ainsi que les acides nucleiques 

20 detectes par un tel procede et les polypeptides codes par de tels acides 
nucleiques. 

L'invention a egalement trait a des acides nucleiques obtenus 
et detectes selon les procedes ci-dessus, en particulier des acides 
nucleiques codant pour une enzyme participant a la voie de biosynthfese 

25 d'antibiotiques tels que les p-lactames, les aminoglycosides, les 
nucleotides heterocycliques ou encore des polyketides ainsi que 
I'enzyme codee par ces acides nucleiques, les polyketides produits 
grace a ('expression de ces acides nucleiques et enfin des compositions 
pharmaceutiques comprenant une quantite pharmacologiquement active 

30 d'un polyketide produit grace a I'expression de tels acides nucleiques. 

Depuis la decouverte de la production de la streptomycine par 
les actinomycetes, la recherche de nouveaux composes d'interet 
therapeutique, et tout particulierement de nouveaux antibiotiques, a eu 
recours de maniere accrue a des methodes de criblage des metabolites 

35 produits par les micro-organismes du sol. 
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De telles methodes consistent principalement a isoler les 
organismes de la microflore tellurique, a les cultiver sur des milieux 
nutritifs specialement adaptes puis a detecter une activite 
pharmacologique dans les produits retrouves dans les surnageants de 
culture ou dans les lysats cellulaires ayant, le cas echeant, subi au 
prealable une ou plusieurs etapes de separation et/ou de purification. 

Ainsi, les methodes d'isolement et de culture in vitro des 
organismes constituant la microflore tellurique ont permis, a la date 
d'aujourd'hui, de caracteriser environ 40.000 molecules, dont environ la 
moitie presente une activite biologique. 

Des produits majeure ont ete caracterises selon de telles 
methodes de culture in vitro, tels que des antibiotiques (penicilline, 
erythromycine, actinomycine, tetracycline, cephalosporine), des anti- 
cancereux, des anticholesterolemiants ou encore des pesticides. 

Les produits d'interet therapeutique d'origine microbienne 
connus a ce jour proviennent majoritairement (environ 70%) du groupe 
des actinomycetes et plus particulierement du genre Streptomyces. 
Toutefois, d'autres composes therapeutiques, tels que les teicoplanines, 
la gentamycine et les spinosines, ont ete isoles a partir de micro- 
organismes de genres plus difficiles a cultiver tels que Micromonospora, 
Actinomadura, Actinoplanes, Nocardia, Streptosporangium, 
Kitasatosporia ou encore Saccharomonospora. 

Mais la pratique illustre le fait que la caracterisation de 
nouveaux produits naturels synthases par les organismes de la 
microflore du sol est restee limitee, en partie du fait que I'etape de 
culture in vitro aboutit le plus souvent a une selection d'organismes deja 
connus anterieurement. 

Les methodes de separation et de culture in vitro des 
organismes telluriques en vue d'identifier de nouveaux composes 
d'interet presentent done de nombreuses limites. 

Chez les actinomycetes, par exemple, le taux de redecouverte 
d'antibiotiques deja connus anterieurement est d'environ 99%. En effet, 
des techniques de microscopie en fluorescence ont permis de 
denombrer plus de 10 10 cellules bacteriennes dans 1g de sol, alors que 
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seulement 0,1 a 1% de ces bacteries peuvent etre isolees apr6s 
ensemencement sur des milieux de culture. 

A I'aide de techniques de cinetique de reassociation d'ADN, il a 
pu etre montre qu'entre 12.000 et 18.000 especes bacteriennes peuvent 
5 etre contenues dans 1g de sol, alors qu'a ce jour, seuls 5000 micro- 
organismes non eucaryotes ont ete decrits, tout habitat confondu. 

Des etudes d'ecologie moleculaire ont permis d'amplifier et 
doner de nombreuses sequences nouvelles d'ADNr 16S a partir d'ADN 
de I'environnement. 
io Les resultats de ces etudes ont conduit & tripler le nombre de 

divisions bacteriennes caracterisees anterieurement. 

A la date d'aujourd'hui, les bacteries sont subdivisees en 40 
divisions, certaines d'entre elles n'etant constitutes que par des 
bacteries ne pouvant etre cultivees. Ces derniers resultats temoignent de 
is I'ampleur de la biodiversite microbienne restee inexploitee a ce jour. 

Des travaux recents ont tente de surmonter les nombreux 
obstacles a Tacces a la biodiversite de la microflore du sol, dont 
notamment Tetape de culture in vitro prealable a Tisolement et la 
caracterisation de composes d'interet industriel, surtout d'interet 
20 therapeutique. 

Des methodes ont ainsi §te mises au point qui incluent une 
etape d'extraction de I'ADN des organismes telluriques, le cas echeant 
apres un isolement prealable des organismes contenus dans les 
echantillons de sol. 

25 L'ADN ainsi extrait, apres lyse des cellules bacteriennes sans 

etape prealable de culture* in vitro, est clone dans des vecteurs utilises 
pour transfecter des organismes hotes, afin de constituer des banques 
d'ADN provenant de bacteries du sol. 

Ces banques de clones recombinants sont utilisees pour 

30 detecter la presence de genes codant pour des composes d'interet 
therapeutique ou alternativement pour detecter la production de 
composes d'interet therapeutique par ces clones recombinants. 

Toutefois, les methodes d'acces direct a I'ADN de la microflore 
du sol, decrites dans Tetat de la technique pr6sentent des inconvenients 

35 lors de la mise en oeuvre de chacune des etapes decrites ci-dessus, de 
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nature a affecter considerablement la quantite et la qualite du materiel 
genetique obtenu et exploitable. 

L'etat de la technique concernant chacune des etapes de 
construction de banques d'ADN provenant d'echantillons de sol est 
5 detaille ci-apres, ainsi que les inconvenients techniques identifies par le 
demandeur et qui ont ete surmontes selon la presente invention. 

1. Etape d'extra ction de I'ADN a partir d'un echantillon du 

10 sol. 



1.1 Extraction directe d'ADN de I'environnement. 

II s'agit pour I'essentiel d'un procede mettant en oeuvre des 
15 techniques d'extraction dADN realisees directement sur I'echantilion 
dans renvironnement, le plus souvent apres une lyse in situ prealable 
des organismes de I'echantilion. 

De telles techniques ont ete mises en oeuvre sur des 
echantillons provenant de milieux aquatiques, que ce soit d'eau douce 
20 ou marine. Elles comprennent une premiere etape de concentration 
prealable des cellules presentes librement ou sous forme de particules, 
consistant en general en une filtration de grands volumes d'eau sur 
differents dispositifs de filtration, par exemple filtration classique sur 
membrane, filtration tangentielle ou rotationnelle ou encore ultrafiltration. 
25 La taille des pores est comprise entre 0,22 et 0,45 mm et 

necessite souvent une prefiltration dans le but d'eviter des colmatages 
dus au traitement de grands volumes. 

Dans un second temps, les cellules recoltees sont lysees 
directement sur les filtres dans des petits volumes de solutions, par 
30 traitement enzymatique et/ou chimique. 

Cette technique est par exemple illustree par les travaux de 
STEIN et al. , 1996, Journal of Bacteriology, Vol.178 (3): 591-599 qui 
decrit le clonage de genes codant pour de I'ADN ribosomal et pour un 
facteur d'elongation de la transcription (EF 2) a partir d'Archaebacteries 
35 du plancton marin. 
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Des techniques d'extraction directe d'ADN a partir 
d'echantillons de sol ou de sediment ont ete egalement decrites, basees 
sur des protocoles de lyse physique, chimique ou enzymatique realisee 
in situ. 

5 Par exemple, le brevet US N°5 f 824,485 (Chromaxome 

Corporation) decrit une lyse chimique des bacteries directement sur 
I'echantillon preleve par addition d'un tampon de lyse chaud a base 
d'isothiocyanate de guanidium. 

La demande Internationale n°WO 99/20.799 (WISCONSIN 
10 ALUMNI RESEARCH FOUNDATION) decrit une etape de lyse des 
bacteries in situ a I'aide d'un tampon d'extraction contenant une 
protease et du SDS. 

D'autres techniques ont egalement ete utilisees telles que la 
realisation de plusieurs cycles de congelation-decongelation de 
15 I'echantillon puis pressage de I'echantillon decongele a haute pression. 
Ont ete egalement utilisees des techniques de lyse des bacteries a I'aide 
d'une succession d'etapes de sonication, de chauffage par micro-ondes 
et de chocs thermiques (PICARD et al. (1992). 

Toutefois, les techniques d'extraction directe d'ADN de I'etat de 
20 la technique decrites ci-dessus ont une efficacite tres variable du point 
de vue quantitatif et qualitatif. 

Ainsi, les traitements chimiques ou enzymatiques in situ de 
I'echantillon ont le desavantage de ne lyser que certaines categories de 
micro-organismes du fait de la resistance selective des differents micro- 
25 organismes indigenes a I'etape de lyse en raison de leur morphologie 
heterogene. 

Ainsi, les bacteries a Gram-positif resistent a un traitement a 
chaud au detergent SDS alors que la quasi-totalite des cellules a Gram- 
negatif sont lysees . 
30 En outre, certains des protocoles d'extraction directe decrits ci- 

dessus favorisent I'adsorption des acides nucleiques extraits sur les 
particules min§rales de Techantillon, reduisant ainsi significativement la 
quantite d'ADN accessible. 

Par ailleurs, si certains protocoles de I'etat de la technique 
35 divulguent une etape de traitement mecanique pour lyser les micro- 
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organismes de I'echantillon preleve, une telle etape de lyse mecanique 
est systematiquement effectuee en milieu liquide dans un tampon 
d'extraction, ce qui ne permet pas une bonne homogeneisation de 
I'echantillon de depart sous la forme de particules fines permettant une 
5 accessibility maximale a la diversite des organismes presents dans 
I'echantillon. Des essais de broyage ont egalement ete effectues sur 
echantillon de sol brut a I'aide de billes de verre, mais la quantite d'ADN 
extrait etait faible. 

II a ete observe selon invention qu'une premiere etape de lyse 
10 m6canique in situ en milieu liquide avait des effets negatifs sur la 
quantite d'ADN susceptible d'etre extrait. 

La quantite d'ADN directement utilisable pour le clonage dans 
des vecteurs recombinants est egalement tributaire des etapes de 
purification subsequentes a son extraction, 
is Dans I'etat de la technique, I'ADN extrait est ensuite purifie, par 

exemple par I'utilisation de.polyvinylpolypyrrolidone, par une precipitation 
en presence d'acetate d'ammonium ou de potassium, par des 
centrifugations sur gradient de chlorure de cesium, ou encore des 
techniques chromatographiques, notamment sur support 
20 d'hydroxyapatite, sur colonne echangeuse d'ions ou encore tamisage 
moleculaire ou par des techniques d'electrophorese sur gel d'agarose. 

Les techniques de purification d'ADN decrites anterieurement, 
surtout lorsque celles-ci sont combinees avec les techniques d'extraction 
d'ADN de I'environnement precitees, sont susceptibles de conduire a 
25 une co-purification de I'ADN avec des composes inhibiteurs provenant 
de I'echantillon initial qui sont difficiles a eliminer. 

La co-extraction de composes inhibiteurs avec I'ADN necessite 
la multiplication du nombre d'etapes de purification ce qui conduit a des 
pertes importantes de I'ADN initialement extrait et reduit simultanement 
30 la diversite du materiel genetique initialement contenu dans Techantillon, 
ainsi que sa quantite. 

Un autre but de I'invention a ete de surmonter les inconvenients 
des protocoles de purification anterieurs et de mettre au point une etape 
de purification d'ADN permettant de maintenir de maniere optimale la 
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diversite de I'ADN de I'echantillon initial, d'une part, et, de favoriser 
quantitativement son obtention, d'autre part. 

Tout particulierement, les ameliorations qualitatives et 
quantitatives a la purification d'ADN sont maximales lorsqu'elles font 
5 appel a une combinaison d'un procede d'extraction direct de I'ADN selon 
I'invention et d'un procede de purification ulterieur, comme cela sera 
decrit ci-apres. 

1.2. Extraction indirecte d'ADN de renvironnement. 

io 

De telles techniques ont recours a une premiere etape de 
separation des differents organismes de la microflore tellurique des 
autres constituants de I'echantillon de depart, prealablement & l'etape 
d'extraction de I'ADN proprement dite. 

is Dans I'etat de la technique, la separation prealable d'une 

fraction microbienne d'un echantillon de sol cornprend le plus souvent 
une dispersion physique de I'echantillon par broyage de ce dernier en 
milieu liquide, par exemple en utilisant des dispositifs du type Waring 
Blender ou encore un mortier. 

20 II a egalement ete decrit des dispersions chimiques, par 

exemple sur des resines echangeuses d'ions ou encore des dispersions 
a I'aide de detergents non specifiques tels que le d6oxycholate de 
sodium ou du polyethylene glycol. Quel que soit le mode de dispersion, 
I'echantillon solide doit etre mis en suspension dans de Teau, du tampon 

25 phosphate ou une solution saline. 

L'etape de dispersion physique ou chimique peut etre suivie 
d'une centrifugation sur gradient de densite permettant la separation des 
cellules contenues dans I'echantillon et des particules de ce dernier, 
etant entendu que les bacteries ont des densites inferieures a celles de 

30 la plupart des particules du sol. 

L'etape de dispersion physique peut aussi etre suivie 
alternativement d'une etape de centrifugation a faible Vitesse ou encore 
une §tape d'elutriation cellulaire. 

L'ADN peut ensuite etre extrait des cellules separees par toutes 

35 les methodes de lyse disponibles et etre purifie par de nombreuses 
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methodes, y compris les methodes de purification decrites au 
paragraphe 1.1 precedent. Notamment, Tinclusion des cellules dans de 
I'agarose a bas point de fusion peut etre realisee afin de manager la 

lyse. 

5 Toutefois, les methodes decrites dans I'gtat de la technique 

connues du demandeur ne donnent pas satisfaction du fait de la 
presence, dans les fractions contenant I'ADN extrait, de constituants 
indesirables de Techantillon de depart ayant une influence significative 
sur la qualite et la quantite d'ADN final. 

io La presente invention se propose de resoudre les difficultes 

techniques rencontrees dans les proc6d6s de Tart anterieur comme cela 
sera decrit ci-apres. 

2. Caracterisation moleculaire de I'ADN extrait. 

15 

Lorsque Ton desire construire une banque d'ADN a partir d'un 
echantillon de Tenvironnement, en particulier a partir d'un §chantillon de 
sol, il est avantageux de verifier la qualite et la diversite de la source 
d'ADN extrait et purifie prealablement a son insertion dans des vecteurs 

20 appropries. 

L'objectif d'une telle caracterisation moleculaire de IADN extrait 
et purifie est d'obtenir des profils representant les proportions des 
differents taxons bacteriens presents dans cet extrait d'ADN. La 
caracterisation moleculaire de TADN extrait et purifie permet de 

25 determiner si des artefacts ont ete introduits lors de la mise en oeuvre 
des differentes etapes d'extraction et de purification et, le cas echeant, si 
la diversite d'origine de I'ADN extrait et purifie est representative de la 
diversite microbienne presente initialement dans I'echantillon, 
notamment dans rechantillon de sol. 

30 A la connaissance du demandeur, il est recouru dans I'etat de 

la technique a des procedes d'hybridation quantitative mettant en oeuvre 
des sondes oligonucleotidiques specifiques de differents groupes 
bacteriens, appliques directement a I'ADN extrait de Tenvironnement. 
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Malheureusement, une telle approche est peu sensible et ne 
permet pas de detecter des genres ou des groupes taxonorniques 
presents en faible abondance. 

L'etat de la technique decrit aussi des precedes de PCR 
5 quantitative, telle que la MPN-PCR ou encore la PCR quantitative par 
competition. Toutefois, ces techniques presentent d'importants 
inconvenients. 

Ainsi, la MPN-PCR est d'une utilisation complexe du fait de la 
multiplication des dilutions et des repetitions qui la rend inappropriee 

io pour un grand nombre d'echantillons ou de couples d'amorces. 

Par ailleurs, la PCR quantitative par competition est d'une mise 
en oeuvre difficile du fait de la necessite de construire un competiteur 
specifique a I'ADN cible qui, en outre, n'induit pas de biais ou d'artefacts 
dans la competition proprement dite. 

15 II est ainsi propose selon I'invention un procede de precriblage 

d'une banque d'ADN provenant d'un Echantillon de I'environnement qui 
est a la fois rapide, simple et fiable et permet de tester la qualite de 
I'ADN prealablement extrait et purifie et de determiner ainsi I'interet de 
construire une banque de clones prepares a partir de cet ADN purifie de 

20 depart. 

3. Vecteurs pour le clonaqe de I'ADN extrait et purifie a 
partir d'un echantillon de I'environnement . 

25 De nombreux vecteurs ont deja ete decrits dans Tetat de la 

technique afin de doner de I'ADN prealablement extrait d'un echantillon 
de I'environnement 

Ainsi, selon la description de la demande internationale n°WO 
99/20.799, peuvent etre utilises des vecteurs viraux, des phages, des 

30 plasmides, des phagemides, des cosmides, des phosmides, des 
vecteurs du type BAC (chromosome artificiel bacterien) ou encore le 
bacteriophage P1, des vecteurs de type PAC (chromosome artificiel 
base sur le bacteriophage P1), des vecteurs du type YAC (chromosome 
artificiel de levure), des plasmides de levure ou tout autre vecteur 
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capable de maintenir et d'exprimer de maniere stable un ADN 
genomique. 

L'exemple 1 de la demande PCT n°WO 99/20.799 decrit la 
construction d'une banque d'ADN genomique par clonage dans un 
5 vecteur du type BAC. 

A la connaissance du demandeur, aucune banque d'ADN 
provenant d'un echantillon de I'environnement n'avait encore ete 
effectivement realisee avec des vecteurs de type conjugatif, une telle 
technique etant rendue pour la premiere fois accessible et reproductible 
10 par rhomme du metier grace a I'enseignement de la pr6sente invention. 

4. Hotes cellulaires 

Dans I'etat de la technique, de nombreuses cellules hotes ont 
15 ete decrites comme pouvant etre utilisees afin d'heberger les vecteurs 
contenant les inserts d'ADN provenant de I'ADN extrait et purifie a partir 
d'un echantillon de I'environnement. 

Ainsi, la demande PCT N°WO 99/20.799 cite de nombreux 
hotes cellulaires appropries, tels que Escherichia co//, en particulier la 
20 souche DH 10B ou encore la souche 294 (ATCC 31446, la souche E. 
coli B, E. Coli X 1776 (ATCC NT31.537), E.coli DH5 a et E.coli W3110 
(ATCC n°27.325). 

Cette demande PCT cite egalement d'autres cellules hotes 
appropriees telles que Enterobacter, Erwinia, Klebsiella, Proteus, 
25 Salmonella, Serratia, Schigella ou encore des souches du type bacillus 
telles que S. subtilis et B. licheniformis ainsi que les bacteries du genre 
Pseudomonas, Streptomyces ou Actinomyces, 

Le brevet US N 0 5,824,485 cite en particulier la souche de 
Streptomyces lividans TK66 ou encore des cellules de levure telles que 
30 celles de Saccharomyces pombe. 

5. Caracterisation de genes d'interet dans des banques 
d'ADN provenant d'un echantillon de renvironnement . 
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La demande PCT N° WO 99/20.799 decrit une identification du 
phenotype de differents clones appartenant a la banque d'ADN de 
B.cereus, respectivement un clone produisant de I'hemolysine, un clone 
hydrolysant I'esculine ou encore un clone produisant un pigment orange. 
5 Des techniques de mutagen^se basees sur 1'utilisation d'un 

transposon codant pour I'enzyme pho A ont permis subsequemment 
d'isoler des clones mutes et de caracteriser les sequences responsables 
des phenotypes observes. 

L'article de STEIN et al. (1996) precite decrit I'utilisation 

10 d'amorces specifiques de I'ADN ribosomal afin d'amplifier I'ADN insere 
dans les vecteurs heberg6s par certains clones d'une banque d'ADN 
genomique d'Archaebacteries de plancton marin et ('identification de 
plusieurs sequences codantes dans TADN ainsi amplifie. 

L'article de BORSCHERT S. et al., (1992) decrit le criblage 

is d'une banque d'ADN genomique de Bacillus subtilis a I'aide de couples 
d'amorces hybridant avec des regions conservees de peptide 
synthetases connues afin d'identifier un ou plusieurs genes 
correspondant dans le genome de Bacillus subtilis. 

Cette technique a permis de detecter un fragment d'ADN 

20 chromosomique d'environ 26 kb portant une partie de I'operon de 
biosynthese de la surfactine. 

L'article de KAH-TONG S. et al.(1997) decrit le criblage d'une 
banque d'ADN provenant du sol a I'aide d'amorces hybridant avec des 
sequences conservees de I'operon responsable de la voie de 

25 biosynthese des polyketides de type II et montre I'identification, au sein 
de cette banque d'ADN, de sequences apparentees au gene PKS-p. Cet 
article decrit aussi la construction de cassettes d'expression hybrides 
dans lesquelles la sequence de la sous-unite PKS-p, retrouvee 
naturellement dans I'operon responsable de la biosynthese des 

30 polyketides, a ete remplacee par differentes sequences apparentees 
retrouvees dans la banque d'ADN. 

De meme, l'article de HONG-FU et al. , (1995) decrit la 
construction de cassettes d'expression contenant les differentes phases 
de lecture ouverte de I'operon responsable de la biosynthese des 

35 polyketides, les differentes cassettes d'expression ayant ete construites 
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artificiellernent en combinant les phases de lecture ouverte qui ne sont 
pas retrouvees ensemble naturellement dans le genome de 
Streptomyces coelicolor. Cet article montre que la combinaison, dans les 
cassettes d'expression artificielles, de cadres de lecture ouvert 
5 originates de differentes souches bacteriennes permet la production de 
polyketides ayant differentes caracteristiques structurales et des activites 
antibiotiques plus ou moins grandes vis-a-vis de Bacillus subtilis et 
Bacillus cereus. 

Les polyketides font partie d'une grande famille de produits 
io naturels de structure variable et possedant une grande diversite 
d'activites biologiques. Font partie des polyketides par exemple, les 
tetracyclines et I'erythromycine (antibiotiques), le FK506 
(immunosuppresseur), la doxorubicine (agent anti-cancereux), la 
monensine (un agent coccidiostatique) ainsi que I'avermectine (un agent 
15 antiparasitaire). 

Ces molecules sont synthetisees grace a des enzymes 
multifonctionnelles appelees polyketides synthases, qui catalysent des 
cycles de condensation repetes entre des acyl thioesters (en general des 
acetyl, propionyl, malonyl ou methylmalonyl thioesters). Chaque cycle de 
20 condensation aboutit a la formation, sur une chaine croissante carbonee, 
d'un groupe p-keto qui peut ensuite subir, le cas echeant, une ou 
plusieurs series d'etapes reductrices. 

Compte-tenu de I'interet clinique important des polyketides, leur 
mecanisme commun de biosynthese ainsi que le haut degre de 
25 conservation observe entre les groupes de genes codant pour les 
polyketides synthases, il s'est developpe un interet accru pour le 
developpement de nouveaux polyketides par genie genetique. 

De nouveaux polyketides artificiels ont ainsi ete produits par 
genie genetique, tels que la mederrhodine A ou la dihydrogranatirhodine. 
30 La grande majorite des molecules nouvelles de polyketides obtenues par 
genie genetique sont tres differentes, du point de vue structural, des 
polyketides correspondants naturels. 

De I'etat de la technique, il ressort ainsi qu'il existe un besoin 
d'obtention de nouveaux polyketides d'interet et tout particulierement de 
35 polyketides d'interet therapeutique presentant notamment, par rapport a 
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leurs homologues naturels, un niveau accru d'activite antibiotique ou 
encore un spectre d'activite antibiotique different, soit plus large que 
celui des polyketides connus, soit au contraire plus selectif. 

Ce besoin est, comme cela sera decrit ci-apres, en partie 
5 comble selon la prEsente invention, 

DESCRIPTION DE L'INVENTION 

L'invention concerne tout d'abord un procede pour la 

10 construction de banques d'ADN provenant d'un echantillon de 
I'environnement, un tel Echantillon pouvant etre indifferemment un milieu 
aquatique (eau douce ou marine), un echantillon de sol (couche 
superficielle du sol, sous-sol ou sediments), ou encore un Echantillon 
d'organismes eucaryotes contenant une microflore associee, tel que par 

15 exemple un echantillon provenant de plantes, d'insectes ou encore 
d'organismes marins et possedant une microflore associee. 

La mise au point d'un procede de construction d'une banque 
d'ADN d'un echantillon de I'environnement, et tout particulierement d'un 
echantillon de sol, comprend des etapes critiques dont la mise en oeuvre 

20 doit etre necessairement optimisee pour I'obtention d'une banque d'ADN 
dont le contenu en acides nucleiques d'interet repond aux objectifs 
initialement fixes. 

Une premiere etape critique consiste en Textraction et la 
purification ulterieure des acides nucleiques contenus initialement dans 

25 Techantillon, c'est-a-dire principalement des acides nucleiques contenus 
dans les divers organismes composant la microflore de cet echantillon. 

La qualite de la purification de I'ADN extrait est determinante 
sur le resultat obtenu. 

Une seconde etape importante d'un procede de construction 

30 d'une banque d'acides nucleiques provenant d'un Echantillon de 
I'environnement est revaluation de la diversite genetique des acides 
nucleiques extraits et purifies. La mise au point d'une etape de 
realisation simple et fiable de pre-criblage de I'ADN extrait et purifie afin 
de verifier qu'il rend compte, au moins partiellement, de la diversite 

35 phylogenetique des organismes presents initialement dans I'echantillon 
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de depart, permet en effet de determiner I'interet ou non d'utiliser la 
source initiate d'ADN extrait et purifie pour la construction de la banque 
d'acides nucleiques proprement dite ou au contraire de ne pas 
poursuivre la construction de la banque d'acides nucleiques du fait 
5 d'artefacts trop importants introduits au moment de Textraction et de la 
purification des acides nucleiques. II a en outre ete identify selon 
1'invention que la qualite des inserts introduits dans les vecteurs pour 
construire la banque est determinate. II a ainsi ete determine que 
I'utilisation d'enzymes de restriction pour diver I'ADN extrait et purifie d 

10 partir de I'echantillon de Tenvironnement etait de nature a introduire des 
artefacts ou " biais " dans la structure des inserts obtenus. En effet, 
I'ADN extrait du sol ou d'autres environnements, provenant en tres 
grande majorite d'organismes non cultivables, est compose de 
molecules dont le taux de bases G et C est par definition inconnu et de 

is plus variable en fonction de I'origine de ces organismes. 

Une troisieme etape critique est I'insertion des acides 
nucleiques extraits et purifies dans des vecteurs capables d'integrer des 
acides nucleiques de longueur choisie, d'une part, et, d'autre part, d'en 
permettre la transfection ou encore Integration dans le genome dans 

20 des hotes cellulaires determines ainsi que, le cas echeant, d'en 
permettre I'expression dans de tels hotes cellulaires. 

Constituent des vecteurs d'interet, les vecteurs capables 
d'integrer des acides nucleiques de grande taille, c'est-a-dire de taille 
superieure a 100 kb lorsque I'objectif poursuivi consiste en un clonage et 

25 en une identification d'un operon complet capable de diriger une voie 
complete de biosynthese d'un compose dlnteret industriel, en particulier 
d'un compose d'interet pharmaceutique ou agronomique. 

DEFINITIONS 

30 

Au sens de la presente invention, on entend par "acides 
nucleiques", "polynucleotides" et "oligonucleotides" aussi bien des 
sequences d'ADN, d'ARN, que des sequences hybrides ARN/ADN de 
plus de 2 nucleotides, indifferemment sous la forme simple brin ou 
35 double brin. 
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Le terme " banque " ou " collection " est utilise dans la presente 
description en reference indifferemment a un ensemble decides 
nucleiques extraits et, le cas echeant purifies, provenant d'un echantillon 
de I'environnement, a un ensemble de vecteurs recombinants, chacun 
5 des vecteurs recombinants de I'ensemble comprenant un acide 
nucleique provenant de I'ensemble d'acides nucleiques extraits et, le cas 
echeant purifies precites, ainsi qu'a un ensemble de cellules hotes 
recombinantes comprenant un ou plusieurs acides nucleiques provenant 
de I'ensemble des acides nucleiques extraits et, le cas echeant, purifies 

10 precites, lesdits acides nucleiques 6tant soient portes par un ou 
plusieurs vecteurs recombinants, soit integres dans le genome desdites 
cellules hotes recombinantes. 

On designe par " echantillon de I'environnement " 
indifferemment un echantillon d'origine aquatique, par exemple d'eau 

15 douce ou saline, ou un echantillon tellurique provenant de la couche 
superficielle d'un sol, de sediments ou encore de couches inferieures du 
sol (sous-sol), ainsi que des echantillons d'organismes eucaryotes, le 
cas echeant multicellulaires, d'origine vegetale, provenant d'organismes 
marins ou encore d'insectes et possedant une microflore associee, cette 

20 microflore associee constituant des organismes d'interet. 

On entend par " operon " selon I'invention, un ensemble de 
cadres ouverts de lecture dont la transcription et/ou la traduction est co- 
r6gulee par un ensemble unique de signaux de regulation de la 
transcription et/ou de la traduction. Selon I'invention, un operon peut 

25 egalement comprendre lesdits signaux de regulation de la transcription 
et/ou de la traduction. 

Par 11 voie metabolique " aux fins de I'invention ou encore " voie 
de biosynthese " on entend un ensemble de reactions biochimiques 
anaboliques ou cataboliques realisant la conversion d'une premiere 

30 espece chimique en une seconde espece chimique. 

Par exemple, une voie de biosynthese d'un antibiotique est 
constitute de I'ensemble des reactions biochimiques convertissant des 
metabolites primaires en produits intermediates des antibiotiques, puis 
subsequemment en antibiotiques. 
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Par sequence de regulation placee " en phase " (en anglais 
operably linked) par rapport a une sequence nucleotidique dont 
I'expression est recherchee, on signifie que la ou les sequences de 
regulation de la transcription sont localisees, par rapport a la sequence 
nucleotidique d'interet dont I'expression est recherchee, de maniere a 
permettre ('expression de ladite sequence d'interet, la regulation de la 
dite expression etant dependante de facteurs interagissant avec les 
sequences nucleotidiques regulatrices. 

Selon une autre terminologie, on peut dire egalement que la 
sequence nucleotidique d'interet dont I'expression est recherchee est 
placee " sous le controle " des sequences nucleotidiques regulatrices de 
la transcription. 

Le terme " isole " au sens de la presente invention designe un 
materiel biologique qui a ete soustrait a son environnement originel 
(I'environnement dans lequel il est localise naturellement). 

Par exemple, un polynucleotide ou un polypeptide present a 
I'etat naturel dans un organisme (virus, bacterie, champignon, levure, 
plante ou animal) n'est pas isole. Le meme polypeptide separe de son 
environnement naturel ou le meme polynucleotide separe des acides 
nucleiques adjacents au sein desquels il est naturellement insere dans le 
genome de I'organisme, est isole. 

Un tel polynucleotide peut etre inclus dans un vecteur et/ou un 
tel polynucleotide peut etre inclus dans une composition et demeure 
neanmoins a I'etat isole, du fait que le vecteur ou la composition ne 
constitue pas son environnement naturel. 

Le terme " purifie " ne necessite pas que le materiel soit present 
sous une forme de purete absolue, exclusif de la presence d'autres 
composes. II s'agit plutot d'une definition relative. 

Un polypeptide ou un polynucleotide est a I'etat purifie apres 
purification du materiel de depart d'au moins un ordre de grandeur, de 
preference 2 ou 3 et preferentiellement 4 ou 5 ordres de grandeur. 

Le " pourcentage d'identite " entre deux sequences de 
nucleotides ou d'acides amines, au sens de la presente invention, peut 
etre determine en comparant deux sequences alignees de maniere 
optimale, a travers une fenetre de comparaison. 
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La partie de la sequence nucleotidique ou polypeptide dans la 
fenetre de comparaison peut ainsi comprendre des additions ou des 
deletions (par exemple des " gaps ") par rapport a la sequence de 
reference (qui ne comprend pas ces additions ou ces deletions) de 
manidre a obtenir un alignement optimal des deux sequences. 

Le pourcentage est calcule en determinant le nombre de 
positions auquel une base nucleique ou un residu d'aminoacide 
identique est observe pour les deux sequences (nucleique ou 
peptidique) comparees, puis en divisant le nombre de positions auquel il 
y a identite entre les deux bases ou residus d'aminoacides par le nombre 
total de positions dans la fendtre de comparaison, puis en multipliant le 
resultat par 100 afin d'obtenir le pourcentage d'identite de sequence. 

L'alignement optimal des sequences pour la comparaison peut 
etre realise de maniere informatique a I'aide d'algorithmes connus 
contenus dans le package de la Societe WISCONSIN GENETICS 
SOFTWARE PACKAGE, GENETICS COMPUTER GROUP (GCG), 575 
Science Doctor, Madison, WISCONSIN. 

A titre d'illustration, le pourcentage d'identite de sequence 
pourra etre effectue a I'aide du logiciel BLAST (versions BLAST 1.4.9 de 
Mars 1996, BLAST 2.0.4. de Fevrier 1998 et BLAST 2.0.6. de 
Septembre 1998), en utilisant exclusivement les parametres par defaut 
(S.F. Altschul et al., J. Mol. Biol. 1990 215: 403-410, S. F. Altschul et ai. f 
Nucleic Acids Res. 1997 25: 3389-3402). Blast recherche des 
sequences similaires/homologues a une sequence " requete " de 
reference, a I'aide de I'algorithme d'Altschul et al. La sequence requete 
et les bases de donnees utilisees peuvent etre peptidiques ou 
nucleiques, toute combinaison etant possible. 

EXTRACTION ET PURIFICATION D'ACIDES NUCLEIQUES 
PROVENANT D'UN ECHANTILLON DE L'ENVIRONNEMENT. 

1. Extraction directe d'acides nucleiques 

II a ete montr§ selon la presente invention que, pour I'obtention 
d'une banque d'acides nucleiques provenant d'organismes contenus 



WO 01/40497 



18 



PCT/FR00/03311 



dans un echantillon du sol, il etait important de creer des conditions dans 
lesquelles, d'une part, les differents organismes de I'echantiilon sont 
rendus accessibles aux etapes ulterieures d'extraction des acides 
nucleiques et, d'autre part, que I'etape initiale de traitement de 
5 I'echantiilon de sol permette une lyse mecanique maximale des 
organismes de I'echantiilon de nature a rendre directement accessibles 
les acides nucleiques de ces organismes, principalement I'ADN 
genomique et plasmidique, aux tampons utilises pour les etapes 
ulterieures d'extraction. 
10 I' a ete ainsi demontre selon I'invention qu'une accessibilite 

maximale des acides nucleiques provenant des micro-organismes d'un 
echantillon du sol etait atteinte par un broyage pousse et a sec de 
I'echantiilon de sol prealablement seche afin d'obtenir des micro- 
particules. Le demandeur a ainsi determine que le sechage de 
15 I'echantiilon de sol prealable a tout traitement ulterieur provoque une 
diminution significative de la cohesion de I'echantiilon de sol brut et 
favorise en consequence sa desagregation ulterieure sous la forme de 
micro-particules, lorsqu'un traitement par broyage approprie est opere. 

De maniere surprenante, le demandeur a montre que des 
20 micro-particules d'echantillons de sol sec reunissaient des proprietes 
physico-chimiques favorables a I'extraction d'une quantite optimale 
d'acides nucleiques qui, dans leur nature, pouvaient etre representatifs 
de la diversite genetique des organismes presents initialement dans 
I'echantiilon de sol de depart. II a ete montre en particulier que le 
25 procede d'extraction directe d'acides nucleiques selon I'invention 
permettait I'extraction d'ADN provenant de micro-organismes rares, tels 
certains Streptomyces rares ou des micro-organismes sporules. 

Par " micro-particules " de I'echantiilon de sol aux fins de la 
presente invention, on entend des particules derivees de 1'echantillon 
30 ayant une taille moyenne d'environ 50 pm, c'est a dire comprise en 
moyenne entre 45 et 55 pm/. 

Selon I'invention, les micro-particules sont obtenues a partir 
d'echantillons de sol prealablement seches ou dessiques puis broyes 
jusqu'a I'obtention de micro-particules de taille moyenne comprise entre 
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2pm et 50pm, avant remise en suspension dans un milieu tampon 
liquide des micro-particules obtenus. 

Un tel milieu tampon liquide peut consister en un tampon 
d'extraction d'acides nucleiques, en particulier un tampon d'extraction 
5 d'ADN conventionnel bien connu de Thomme du metier. 

Le broyage de I'echantillon de sol en micro-particules a pour 
double fonction de lyser mecaniquement la majorite des organismes 
presents dans I'echantillon de sol initial et de rendre accessibles les 
organismes non lyses par ce traitement mecanique a des stapes 

10 facultatives ulterieures de lyse chimique et/ou enzymatique. 

Ainsi, un premier objet de I'invention consiste en un procede de 
preparation d'une collection decides nucleiques a partir d'un echantillon 
de sol contenant des organismes, ledit procede comprenant une 
premiere etape (l-(a)) d'obtention de micro-particules par broyage de 

is I'echantillon de sol prealablement seche ou dessique, puis mise en 
suspension des micro-particules dans un milieu tampon liquide. 

De maniere tout a fait preferee, I'etape de broyage est realis^e 
a I'aide d'un dispositif a billes d'agate ou de tungstene ou encore a I'aide 
d'un dispositif a anneaux de tungstene. Ces dispositifs sont preferes car 

20 la durete de materiaux comme I'agate ou le tungstene facilite 
significativement I'obtention des micro-particules de la taille specifiee ci- 
dessus. Pour cette raison, on ne choisira pas preferentiellement, voire 
on evitera, un recours a un dispositif de broyage a billes de verre, qui 
s'est revele beaucoup moins efficace. 

25 Le sechage ou la classification de I'echantillon de sol peut-etre 

realisee par toute methode connue de I'homme du metier. Par exemple, 
I'echantillon de sol brut peut etre seche a temperature ambiante pendant 
une duree de 24 a 48 heures. 

Comme indique precedemment, le milieu tampon liquide peut 

30 consister en un milieu d'extraction de I'ADN present dans les micro- 
particules. On utilisera de maniere tout a fait preferee un tampon 
d'extraction designe TENP contenant respectivement 50 mM tris, 20 mM 
EDTA, 100 mM NaCI et 1% (poids/volume) de polyvinylpolypyrrolidone, a 
pH 9,0. 
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Le procede de preparation d'une collection d'acides nucleiques 
a partir d'un echantillon de sol est en outre caracterise en ce que I'etape 
d'obtention de micro-pa rticules par broyage de I'echantillon de sol 
prealablement seche ou dessique est suivie d'une etape l-(b) 
5 d'extraction des acides nucleiques presents dans les micro-particules. 

II est constant que I'extraction des acides nucleiques est 
accompagnee d'une co-extraction de composes et/ou de constituants du 
sol indesirables necessitant la purification ulterieure des acides 
nucleiques extraits, une telle etape de purification ulterieure devant etre 
10 a la fois suffisamment selective pour permettre I'elimination des 
composes et/ou constituants du sol indesirables et d'un rendement 
suffisant pour entraTner une perte faible en quantite de I'ADN 
prealablement extrait. 

II a ete montre selon I'invention qu'une etape de purification de 
15 I'ADN extrait des micro-particules de I'echantillon de sol repondant aux 
criteres de selectivity et de rendement definis ci-dessus, comprend un 
traitement de I'ADN extrait par une combinaison de deux etapes 
successives de chromatographie, respectivement une chromatographie 
surtamis moleculaire et une chromatographie d'echange d'anions. 

20 

Selon une autre caracteristique du procede ci-dessus, I'etape I- 
(b) d'extraction des acides nucleiques est suivie d'une etape l-(c) de 
purification des acides nucleiques extraits a I'aide des deux etapes de 
chromatographie suivantes: 

25 

- passage de la solution contenant les acides nucleiques sur un 
tamis moleculaire, puis recuperation des fractions d'elution enrichies en 
acides nucleiques; 

30 - passage des fractions d'elution enrichies en acides nucleiques 

sur un support de chromatographie d'echange d'anions, puis 
recuperation des fractions d'elution contenant les acides nucleiques. 

La nature et I'ordre des etapes de chromatographie ci-dessus 
sont essentiels a une bonne selectivity et un excellent rendement de 
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I'etape de purification de I'ADN prealablement extrait des micro- 
particules de I'echantillon du sol prealablement seche ou dessique. 

De maniere tres avantageuse, le support chromatographique du 
type " tamis moleculaire " de I'etape de purification d'acides nucleiques 
5 ci-dessus consiste en un support chromatographique de type Sephacryl® 
S400 HR ou un support chromatographique de caracteristiques 
equivalentes. 

De maniere tout a fait preferee, le support chromatographique 
d'echange d'anions utilise lors de la seconde etape de purification de 

10 I'ADN extrait est un support de type Elutip® d, ou un support 
chromatographique de caracteristiques equivalentes. 

En combinant les etapes l-(a) d'obtention de micro-particules 
de I'echantillon de sol sec, l-(b) d'extraction des acides nucleiques 
presents dans les micro-particules et l-(c) de purification par les etapes 

15 chromatographiques decrites ci-dessus. il a ete possible selon I'invention 
d'extraire directement I'ADN du sol sans purification prealable des 
cellules des organismes contenus initialement dans I'echantillon, tout en 
evitant la co-extraction de contaminants du sol, tels que par exemple les 
acides humiques qui est observee avec les precedes de I'etat de la 

20 technique. 

Les contaminants, tels que les acides humiques affectent 
severement les analyses et les utilisations subsequentes des acides 
nucleiques dont la purification est recherchee. 

Selon le precede ci-dessus, il est en outre possible d'acceder 
25 aux acides nucleiques contenus dans les organismes qui n'ont pas ete 
lyses mecaniquement au cours de I'etape l-(a) d'obtention de micro- 
particules de I'echantillon de sol, dans le but d'obtenir une collection 
quasi-exhaustive de la djversite genetique des acides nucleiques 
presents initialement dans I'echantillon de sol. Ainsi, les micro-particules 
30 de I'echantillon de sol peuvent faire I'objet d'etapes ulterieures de 
traitement de lyse chimique, enzymatique ou physique, ou encore d'une 
combinaison de traitements chimiques, enzymatiques ou physiques. 

Selon un premier aspect, le precede de preparation d'une 
collection d'acides nucleiques a partir d'un echantillon de sol selon 
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Tinvention, peut etre en outre caracterise en ce que I'etape l-(a) est 
suivie des etapes suivantes: 

• traitement de la suspension de sol dans un milieu tampon 
liquide par sonication; 

• extraction et recuperation des acides nucleiques. 

De maniere preferee, on aura recours, pour un traitement par 
sonication, a un dispositif de type a micro-pointe en titane, tel que le 
dispositif 600 W Vibracell Ultrasonicator commercialise par la Societe 
Bioblock ou encore un sonicateur de type Cup Horn. 

De maniere tout a fait preferee, I'etape de sonication est 
realisee a une puissance de 15 W pendant une duree de 7 a 10 min et 
comprend des cycles successifs de sonication, la sonication proprement 
dite etant realisee pendant 50% de la duree de chaque cycle. 

Selon un second aspect, le procede ci-dessus peut etre en 
outre caracterise en ce que I'etape l-(a) est suivie des etapes suivantes: 

• traitement de la suspension de sol dans un milieu tampon 
liquide par sonication; 

• incubation de la suspension a 37°C apres sonication en 
presence de lysozyme et d'achromopeptidase; 

• addition de SDS avant centrifugation et precipitation des 
acides nucleiques; 

• recuperation des acides nucleiques precipites. 

De preference, I'etape d'incubation en presence de lysozyme et 
d'achromopeptidase sera realisee a une concentration finale de 0,3 
mg/ml de chacune des deux enzymes, preferentiellement pendant 30 
minutes a 37°C. 
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De maniere preferee, le SDS sera utilise a une concentration 
finale de 1% et pendant un temps d'incubation de 1 heure a la 
temperature de 60°C avant centrifugation et precipitation. 

Selon un troisieme aspect, le procede de preparation d'une 
5 collection d'acides nucleiques a partir d'un echantillon de sol ci-dessus 
est en outre caracterise en ce que I'etape l-(a) est suivie des etapes 
suivantes: 

- homogeneisation de la suspension de sol avec une etape de 
io mixage violent (vortex) suivie d'une etape de simple agitation; 

- congelation de la suspension homogene suivie d'une 
decongelation ; 

- traitement par sonication de la suspension apres 
decongelation; 

15 - incubation de la suspension a 37°C apres sonication en 

presence de lysozyme et d'achromopeptidase; 

- addition de SDS avant centrifugation et precipitation des 
acides nucleiques; 

- recuperation des acides nucleiques. 

20 

De maniere preferee, les suspensions de micro-particules de 
sol sont passees au vortex puis homogeneisees par une agitation douce 
sur un agitateur a rotation circulaire pendant une duree de deux heures 
avant d'etre congelees a -20°C. 

25 Preferentiellement, les suspensions sont a nouveau agitees 

violemment par vortex pendant 10 minutes, apres decongelation et avant 
I'etape de sonication. 

II va sans dire que les acides nucleiques extraits par les modes 
de realisation du procede d'extraction directe d'acides nucleiques decrit 

30 ci-dessus sont preferentiellement purifies selon I'etape de purification 
constitute d'un premier passage sur tamis moleculaire puis un passage 
subsequent des fractions d'elution obtenues a Tissue de la 
chromatographic sur tamis moleculaire sur un support 
chromatographique d'echange d'anions. 

35 
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2. Extra ction indirecte des acides nucleiques 

Selon un second mode de realisation du procede de 
preparation d'une collection d'acides nucleiques a partir d'un echantillon 
de I'environnement, selon I'invention, ledit echantillon de I'environnement 
subit un premier traitement de nature a permettre la separation des 
organismes, contenus dans cet echantillon, des autres macro- 
constituants de I'echantillon. 

Ce second mode de realisation du procede de preparation 
d'une collection d'acides nucleiques selon I'invention favorise I'obtention 
d'acides nucleiques de grande taille, qui sont pratiquement impossibles a 
obtenir selon le premier mode de realisation du procede selon I'invention 
decrit ci-dessus, I'etape de lyse mecanique operee pour I'obtention des 
micro-particules ayant egalement pour effet de casser physiquement les 
acides nucleiques de I'echantillon de sol ou des acides nucleiques 
contenus dans les organismes de I'echantillon de sol. 

L'obtention d'acides nucleiques de grande taille a ete 
recherchee par le demandeur dans le but d'isoler et de caracteriser les 
acides nucleiques comprenant, au moins partiellement, I'ensemble des 
sequences codantes appartenant a un meme operon capable de diriger 
la biosynthese d'un compose d'interet industriel. 

De maniere preferee, on obtient, en mettant en oeuvre le 
second mode de realisation du procede de preparation d'une collection 
d'acides nucleiques a partir d'un echantillon de sol selon I'invention , des 
acides nucleiques ayant une taille superieure a 100 kb, de preference 
superieure a 200, 250 ou 300 kb, et de maniere tout a fait preferee 
d'acides nucleiques d'une taille superieure a 400, 500 ou encore 600 kb. 

Ce second mode de realisation d'un procede de preparation 
d'une collection d'acides nucleiques a partir d'un echantillon de 
I'environnement selon I'invention est constitue d'une combinaison de 
quatre etapes successives destinees a I'obtention des acides nucleiques 
ayant les caracteristiques decrites ci-dessus. 

Lorsque I'echantillon de I'environnement est un echantillon de 
sol, il a ete montre selon I'invention qu'une premiere etape d'obtention 
d'une suspension par dispersion de I'echantillon de sol en milieu liquide 
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favorisait I'accessibilite des organismes contenus dans I'echantillon sans 
provoquer de lyse mecanique significative des cellules. 

La premiere etape d'obtention d'une dispersion de I'echantillon 
5 de sol ci-dessus rend accessibles les organismes de I'echantillon au 
milieu exterieur et permet egalement une dissociation partielle des 
organismes de I'echantillon et des macro-constituants. Elle rend ainsi 
possible une separation ulterieure des organismes contenus initialement 
dans I'echantillon des autres constituants de ce dernier. 
10 Lorsque I'echantillon de I'environnement provient par exemple 

de vegetaux, d'organismes marins ou d'insectes, un traitement prealable 
par broyage est necessaire afin de rendre les organismes de la 
microflore associee accessible aux etapes ulterieures du procede. 

Ainsi, le present procede comprend une etape de separation 
15 des organismes des autres constituants mineraux et/ou organiques 
obtenus precedemment par une centrifugation sur un gradient de 
densite. Les organismes ainsi separes sont ensuite soumis a une etape 
de lyse puis d'extraction des acides nucleiques . 

L'etape de centrifugation sur un gradient de densite a, de 
20 maniere surprenante, permis de separer les cellules d'organismes des 
particules de sol contenues dans la suspension de I'echantillon. On 
aurait en effet pu s'attendre a ce qu'une proportion des cellules soient 
entraTnees avec les macro-particules au sein de la phase de gradient. En 
outre, il n'avait jamais ete demontre jusqu'a present qu'une 
25 centrifugation sur gradient de densite d'un echantillon de sol permettait 
de retrouver, a I'interface phase aqueuse/gradient, une population 
d'organismes representative de la diversite des organismes presents 
dans I'echantillon de depart, du fait que ces organismes sont de volume, 
densite et forme extremement variables. On pouvait raisonnablement 
30 supposer qu'ils seraient retrouves indifferemment au sein de la phase 
aqueuse, a I'interface phase aqueuse/gradient de densite et egalement 
au sein du gradient de densite lui-meme. 

Ainsi, I'homme du metier pouvait s'attendre a ce que des 
organismes presentant des densites plus faibles ou plus grandes que la 
35 densite du gradient de densite utilise (densite du gradient de densite 
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comprise entre 1,2 et 1,5 g/ml , preferentiellement 1,3 g/ml) ne pouvait 
etre recuperes, ce qui aurait eu pour effet d'introduire un biais dans la 
representativite des organismes effectivement separes et, par voie de 
consequence, egalement dans la diversite des acides nucleiques 
extraits. 

En outre, dans un mode de realisation particulier du procede, 
une etape de germination des spores, en particulier d'actinomycetes, est 
realisee, ce qui a pour effet d'accroTtre de maniere significative la 
quantite d'ADN d'actinomycetes recuperee. 

La derniere etape consiste en une etape de purification des 
acides nucleiques ainsi extraits sur un gradient de chlorure de cesium. 

De maniere surprenante, la purification des acides nucleiques 
sur le gradient de chlorure de cesium permet une elimination 
substantielle, voire complete, des substances composant le gradient de 
densite. Cette caracteristique est determinate en ce qui concerne 
I'utilisation ulterieure des acides nucleiques purifies car le gradient de 
densite est connu comme un puissant inhibiteur enzymatique, capable le 
cas echeant d'inhiber I'activite catalytique des enzymes utilisees pour 
preparer I'insertion des acides nucleiques extraits dans des vecteurs. 

Selon ce second mode de realisation, le procede de 
preparation d'une collection d'acides nucleiques a partir d'un echantillon 
de I'environnement contenant des organismes selon I'invention 
comprend la succession d'etapes suivantes: 

(i) obtention d'une suspension par dispersion de I'echantillon de 
I'environnement en milieu liquide puis homogeneisation de la suspension 
obtenue par agitation douce; 

(ii) separation des organismes des autres constituants mineraux 
et/ou organiques de la suspension homogene obtenue a I'etape (i) par 
centrifugation sur un gradient de densite; 

(iii) lyse des microorganismes separes a I'etape (ii) et extraction 
des acides nucleiques ; 
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(iv) purification des acides nucleiques sur un gradient de 
chlorure de cesium . 

Preferentiellement, la suspension de I'echantillon de sol est 
5 obtenue par dispersion de cet echantillon par broyage a I'aide d'un 
dispositif de type Waring Blender ou un dispositif de caracteristiques 
equivalentes. De maniere tout a fait preferee, la suspension d'echantillon 
est obtenue apres trois broyages successifs d'une duree d'une minute 
chacun dans un dispositif de type Waring Blender. De preference, 
10 I'echantillon broye sera refroidi dans la glace entre chacun des broyages. 

De maniere preferee, les organismes sont ensuite separes des 
particules du sol par centrifugation sur un coussin de densite du type 
" Nycodenz ", commercialise par la Societe Nycomed Pharma AS. (Oslo 
, Norvege). Les conditions preferees de centrifugation sont de 10.000g 
15 pendant 40 minutes a 4°C, avantageusement dans un rotor a godets 
mobiles du type "rotor TST 28.38" commercialise par la Societe 
KONTRON. 

L'anneau d'organismes localise, apres centrifugation, a 
I'interphase de la phase superieure aqueuse et de la phase inferieure de 
20 Nycodenz est alors preleve et lave par centrifugation avant reprise du 
culot cellulaire dans un tampon approprie. 

L'etape (iii) de lyse des organismes separes a I'etape (ii) decrite 
ci-dessus peut etre realisee de toute maniere connue de I'homme du 
metier. 

25 Avantageusement, les cellules sont lysees dans une solution 

Tris 10 mM-EDTA 100mM a pH 8.0 en presence de lysozyme et 
d'achromopeptidase, avantageusement pendant une heure a 37°C. 

L'extraction proprement dite de I'ADN peut etre 
avantageusement realisee par addition d'une solution de lauryl sarcosyl 

30 (1% du poids final de la solution) en presence de proteinase K et 
incubation de la solution finale a 37°C pendant 30 minutes. 

Les acides nucleiques extraits a l'etape (iii) sont ensuite purifies 
sur un gradient de chlorure de cesium. Preferentiellement, I'etape de 
purification des acides nucleiques sur un gradient de chlorure de cesium 
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est realisee par centrifugation a 35.000 tours/minute pendant 36 heures, 
par exemple sur un rotor du type Kontron 65.13. 

Selon un aspect particulier du procede de preparation d'une 
collection d'acides nucleiques a partir d'un echantillon de sol contenant 
5 des organismes selon I'invention, lesdits acides nucleiques sont 
constitues majoritairement, sinon exclusivement, de molecules d'ADN. 

Selon un autre aspect, les acides nucleiques peuvent etre 
recuperes apres inclusion des organismes, separ6s sur un gradient de 
densite, dans un bloc d'agarose et lyse, par exemple chimique et/ou 
10 enzymatique, des organismes inclus dans le bloc d'agarose. 

Un autre objet de I'invention consiste en une collection d'acides 
nucleiques constitues des acides nucleiques obtenus a I'etape ll-(iv) du 
procede de preparation d'une collection d'acides nucleiques selon 
15 I'invention ou encore obtenue a I'etape (c) ou une etape ulterieure du 
procede de preparation d'une collection d'acides nucleiques selon 
I'invention. 

(.'invention est encore relative a un acide nucleique caracterise 
en ce qu'il est contenu dans une collection d'acides nucleiques telle que 

20 definie ci-dessus. 

Selon un premier aspect, un tel acide nucleique constitutif d'une 
collection d'acides nucleiques selon ('invention est caracterise en ce qu'il 
comprend une sequence nucleotidique codant au moins un operon, ou 
une partie d'un operon. 

25 De maniere tout a fait preferee, un tel operon code pour la 

totalite ou une partie d'une voie metabolique. 

L'exemple 9 decrit la construction d'une banque d'ADN 
genomique a partir d'une souche de Streptomyces alboniger et son 
clonage respectivement dans les cosmides navettes pOS700l et 

30 pOS700R. II a ete montre selon I'invention que dans la banque d'ADN 
realisee dans le vecteur integratif pOS700l neuf clones contiennent des 
sequences nucleotidiques appartenant a I'operon responsable de la voie 
de biosynth^se de la puromycine. De meme, il a pu etre identifie au sein 
de la banque d'ADN r6alis6e dans le vecteur replicatif pOS 700R douze 
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clones contenant des sequences nucleotidiques de I'operon responsable 
de la voie de biosynthese de la puromycine. 

En particulier, certains cosmides integratifs et replicatifs des 
banques realisees presentent, apres digestion par les endonucleases de 
5 restriction Clal et EcoRV, un fragment d'une taille de 12 kb susceptible 
de contenir la totalite des sequences de I'operon responsable de la voie 
de biosynthese de la puromycine. 

Ainsi, selon un autre aspect, un acide nucleique selon 
I'invention contient, au moins en partie, des sequences nucleotidiques de 
10 I'operon responsable de la voie de biosynthese de la puromicyne. 

L'exemple 2 ci-apres decrit la construction d'une banque d'ADN 
selon un procede conforme a la presente invention dans un vecteur 
pBluescript SK" a partir d'un sol contamine par du lindane. 

Les vecteurs recombinants ont ete transfectes dans des 
is cellules ^'Escherichia coli DH10B puis les cellules transformees ont ete 
cultivees dans un milieu de culture approprie en presence de lindane. Un 
criblage des clones de cellules transformees de la banque a permis de 
montrer que, sur 10.000 clones cribles, 35 d'entre eux presentaient un 
phenotype de degradation du lindane . La presence du gene linA chez 
20 ces clones a pu etre confirmee par amplification PCR grace a des 
amorces specifiques de ce gene. 

Ainsi. selon un autre aspect, I'invention concerne egalement un 
acide nucleique contenant une sequence nucleotidique de la voie 
metabolique provoquant la biodegradation du lindane. 
25 I' est done clairement demontre, comme decrit plus haut, qu'un 

procede de preparation d'une collection d'acides nucleiques a partir d'un 
echantillon de sol contenant des organismes selon I'invention ainsi qu'un 
procede de preparation d'une collection de vecteurs recombinants 
contenant les acides nucleiques constitutifs de la collection d'acides 
30 nucleiques precites etait tout a fait apte a I'isolement et a la 
caracterisation de sequences nucleotidiques incluses dans un operon. 

Une demonstration supplementaire de I'aptitude d'un procede 
selon I'invention a ('identification de sequences nucleotidiques codantes 
impliquees dans une voie de biosynthese regulee sous la forme d'un 
35 operon est en outre decrite plus loin: il s'agit du clonage et de la 
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caracterisation de sequences codant pour des polyketides synthases 
impliquees dans la voie de biosynthese des polyketides, qui 
appartiennent a une famille de molecules dont certains representants 
sont d'un interet therapeutique majeur, en particulier antibiotique. 
5 La presente invention a done en outre pour objet un acide 

nucleique constitutif d'une collection d'acides nucleiques selon 
invention, caracterise en ce qu'il comprend la totalite d'une sequence 
nucleotidique codant pour un polypeptide. 

Selon un premier aspect, un acide nucleique constitutif d'une 
10 collection d'acides nucleiques selon ('invention est d'origine procaryote. 

Selon un second aspect, un acide nucleique constitutif d'une 
collection d'acides nucleiques selon I'invention provient d'une bacterie ou 
d'un virus. 

Selon un troisieme aspect, un acide nucleique constitutif d'une 
15 collection d'acides nucleiques selon I'invention est d'origine eucaryote. 

En particulier, un tel acide nucleique est caracterise en ce qu'il 
provient d'un champignon, d'une levure, d'une plante ou d'un animal. 

CARACTERISATION MOLECULAIRE DE LA COLLECTION D'ACIDES 
20 NUCLEIQUES EXTRAITS DU SOL. 

Afin de surmonter les nombreux inconvenients techniques des 
methodes de caracterisation des banques d'ADN extraits et purifies a 
partir d'un echantillon de I'environnement qui ont ete decrits dans la 

25 partie de la description relative a I'etat de la technique, le demandeur a 
mis au point un procede simple et fiable permettant de caracteriser 
qualitativement et semi-quantitativement les acides nucleiques obtenus a 
Tissue du procede decrit ci-dessus. 

Le procede selon I'invention consiste ainsi a amplifier 

30 universellement un fragment de 700 pb localise a I'interieur d'une 
sequence d'ADN ribosomal de type 16 S, puis d'hybrider I'ADN amplifie 
avec une sonde oligonucleotidique de specificite variable et enfin de 
comparer I'intensite d'hybridation de I'echantillon par rapport a une 
gamme etalon externe d'ADN de sequence ou d'origine connue. 
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L'amplification prealable a ('hybridation avec la sonde 
oligonucleotidique permet de quantifier des genres ou des especes de 
micro-organismes peu abondants. De plus, l'amplification par des 
amorces universelles permet, lors de I'hybridation, d'utiliser une large 
5 serie de sondes oligonucleotidiques. 

Ainsi, invention a en outre pour objet un procede de 
determination de la diversite des acides nucleiques contenus dans une 
collection d'acides nucleiques, et tout particulierement d'une collection 
d'acides nucleiques provenant d'un echantillon de Tenvironnement, 
10 preferentiellement d'un echantillon du sol, ledit proc6de comprenant les 
etapes suivantes: 

- mise en contact des acides nucleiques de la collection 
d'acides nucleiques a tester avec un couple d'amorces 

is oligonucleotidiques hybridant a toute sequence d'ADN ribosomal 16 S 
bacterien; 

- realisation d'au moins trois cycles d'amplification ; 

- detection des acides nucleiques amplifies a ('aide d'une sonde 
oligonucleotidique ou d'une pluralite de sondes oligonucleotidiques, 

20 chaque sonde hybridant specifiquement avec une sequence d'ADN 
ribosomal 16 S commune a un regne, un ordre, une sous-classe ou un 
genre bacterien; 

- le cas echeant, comparaison des resultats de I'etape de 
detection precedente avec les resultats de detection, a I'aide de la sonde 

25 ou de la pluralite de sondes d'acides nucleiques de sequence connue 
constituant une gamme etalon. 

De maniere preferee, un premier couple d'amorces hybridant 
avec des regions universellement conservees du gene de TARN 
ribosomal 16 S est constitue respectivement des amorces FGPS 612 
30 (SEQ ID N°12) et FGPS 669 (SEQ ID N°13). 

Un second mode de realisation d'un couple d'amorces prefere 
selon I'invention est constitue du couple d'amorces universelles 63 f 
(SEQ ID N°22) et 1387r (SEQ ID N°23). 

Selon un mode particulier de realisation d'un procede de 
35 determination de la diversite des acides nucleiques d'une collection 
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d'acides nucleiques, I'etape d'amplification a I'aide d'un couple 
d'amorces universelles peut etre realisee sur une collection de vecteurs 
recombinants dans chacun desquels a ete insere un acide nucleique de 
la collection d'acides nucleiques consideree, prealablement a I'etape 
5 d'hybridation avec les sondes oligonucleotidiques specifiques d'un 
regne, d'un ordre, d'une sous-classe ou d'un genre bacterien particulier. 

Un tel procede de determination de la diversite des acides 
nucleiques contenus dans une collection est tout particulierement 
applicable aux collections d'acides nucleiques obtenus conformement a 
io I'enseignement de la presente description. 

Ainsi, I'exemple 3 detaille un procede de preparation d'une 
collection d'acides nucleiques a partir d'un echantillon de sol contenant 
des organismes comprenant une etape d'extraction indirecte d'ADN par 
dispersion d'un echantillon du sol prealablement a la separation des 
15 cellules sur gradient de Nycodenz, lyse des cellules puis purification de 
I'ADN sur gradient de chlorure de cesium. 

La collection d'acides nucleiques ainsi obtenue a ete utilisee 
telle quelle ou sous la forme d'inserts dans des vecteurs de type 
cosmide dans un procede d'amplification a I'aide des amorces 
20 universelles de I'ADNr 16 S precitees, puis les ADN amplifies ont ete 
soumis a une etape de detection a I'aide de sondes oligonucleotidiques 
de sequences SEQ ID N°14 a SEQ ID N°21 qui sont presentees dans le 
tableau 4. 

Les resultats montrent qu'un procede de preparation d'une 
25 collection d'acides nucleiques a partir d'un echantillon de sol contenant 
des organismes selon I'invention permet d'acceder a I'ADN de plus de 
14% de la microflora tellurique totale, soit 2 x 10 s cellules par gramme de 
sol, alors que la microflore totale cultivable ne represente qu'a peine 2% 
de la population microbienne totale. 
30 Afin de determiner la diversite phylogenetique d'une collection 

d'acides nucleiques prepares conformement a I'invention, 47 sequences 
du gene ARNr 16S ont ete isolees et sequencees. Ces sequences 
correspondent respectivement aux sequences nucleotidiques SEQ ID 
N°60 a SEQ ID N°106. 
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Les acides nucleiques comprenant les sequences SEQ ID N° 
60 a SEQ ID N° 106 font egalement partie de I'invention, ainsi que les 
acides nucleiques possedant au moins 99 %, preferentiellement 99,5% 
ou 99,8% d'identite en acides nucleiques avec les acides nucleiques 
5 comprenant les sequences SEQ ID N° 60 a SEQ ID N° 106. De telles 
sequences peuvent etre utilisees notamment en tant que sondes pour 
cribler des clones d'une banque d'ADN et identifier ainsi ceux , parmi les 
clones de la banque, qui contiennent de telles sequences, ces 
sequences etant suceptibles d'etre a proximite de sequences codantes 
10 d'interet, telles que des sequences codant pour des enzymes impliqu6es 
dans la voie de biosynthese de metabolites antibiotiques, par exemple 
des polyk6tides. 

La comparaison des sequences d'ARNr 16S a partir d'une 
banque d'ADN realisee conformement a ('invention avec les sequences 

15 repertories dans la base donnees RDP (Maidak B.L., Cole J.R., Parker 
C.T., Garrity G.M., Larsen N., Li B., Lilburn T.G., McCaughey, M.J., 
Olsen G.J., Overbeek R., Pramanik S., Schmidt T.M., Tiedje J.M., 
Woese C.R. (1999) "A new projet of the RDP (Ribosomal Database 
Project)" Nucleic Acids Research Vol. 27: 171-173) ont permis de 

20 determiner que les acides nucleiques contenus dans une collection 
d'acides nucleiques selon I'invention proviennent d'a-proteobacteries, de 
p-proteobacteries, de S-proteobacteries, de y-proteobacteries, 
d'actinomycetes ainsi que d'un genre apparente a acidobacterium. Ces 
resultats, presentes dans le tableau 7 ainsi que par I'arbre 

25 phylogenetique de la figure 7 rendent compte de la grande diversite 
phylogenetique des acides nucleiques contenus dans une banque 
d'ADN preparee conformement au procede selon I'invention. 

VECTEURS DE CLONAGE ET/OU D'EXPRESSION 

30 

Chacun des acides nucleiques contenus dans une collection 
d'acides nucleiques prepares conformement a I'invention peut etre 
insere dans un vecteur de clonage et/ou d'expression. 

A cette fin, tous types de vecteurs connus de I'etat de la 
35 technique peuvent etre utilises, tels que des vecteurs viraux , des 
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phages, des plasmides, des phagemides, des cosmides, des 
phosmides, des vecteurs de type BAC, des bacteriophages P1 , des 
vecteurs de type BAC, des vecteurs de type YAC, des plasmides de 
levure ou encore tout autre vecteur connu de I'etat de la technique par 
rhomme du metier. 

On aura avantageusement recours selon ('invention a des 
vecteurs permettant une expression stable des acides nucleiques d'une 
banque d'ADN. A cette fin, de tels vecteurs incluent preferentiellement 
des sequences de regulation de la transcription qui sont localisees en 
phase C operably linked") avec I'insert genomique de manure a 
permettre I'initiation et/ou la regulation de I'expression d'au moins une 
partie dudit insert d'ADN. 

II resulte de ce qui precede, que (Invention concerne encore un 
procede de preparation d'une collection de vecteurs recombinants 
caracterise en ce que les acides nucleiques obtenus a I'etape ll-(iv) ou a 
I'etape l-(c) ou toute autre etape ulterieure d'un procede de preparation 
d'une collection d'acides nucleiques a partir d'un echantillon de sol 
contenant des organismes selon invention sont inseres dans un vecteur 
de clonage et/ou d'expression. 

Prealablement a leur insertion dans un vecteur de clonage 
et/ou d'expression, les acides nucleiques constitutifs d'une collection 
d'acides nucleiques selon I'invention peuvent etre separes en fonction de 
leur taille, par exemple par efectrophorese sur un gel d'agarose, le cas 
echeant apres digestion a I'aide d'une endonuclease de restriction. 

Selon un autre aspect, la taille moyenne des acides nucleiques 
constitutifs d'une collection d'acides nucleiques selon I'invention peut 
etre rendue d'une taille sensiblement uniforme par la mise en oeuvre 
d'une etape de rupture physique prealablement a leur insertion dans le 
vecteur de clonage et/ou d'expression. 

Une telle etape de rupture physique ou mecanique des acides 
nucleiques peut consister en des passages successifs de ces derniers, 
en solution, dans un canal metallique d'environ 0,4 mm de diametre, par 
exemple le canal d'une aiguille de seringue ayant un tel diametre. 

La taille moyenne des acides nucleiques peut dans ce cas etre 
comprise entre 30 et 40 kb de longueur. 
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La construction des vecteurs preferes selon I'invention est 
shematisee dans les figures 25 (cosmide integrarif conjugatif) et 26 (BAC 
integratif ). 

Des vecteurs de clonage et/ou d'expression pouvant etre 
5 avantageusement utilises aux fins d'insertion des acides nucleiques 
contenus dans une collection ou banque d'ADN selon I'invention sont 
notamment les vecteurs decrits dans le brevet europeen NTEP-0 350 
341 et dans le brevet US N°5 688 689, de tels vecteurs etant 
specialement adaptes a la transformation de souches d'actinomycetes. 
io De tels vecteurs contiennent, outre une sequence d'ADN de I'insert, une 
sequence d'attachement att ainsi qu'une sequence d'ADN codant pour 
une integrase (sequence int) fonctionnelle dans les souches 
d'actinomycetes. 

Toutefois, il a ete observe selon I'invention que certains 
t5 vecteurs de clonage et/ou d'expression presentaient des inconvenients 
et que leur capacite fonctionnelle theorique n'etait pas atteinte dans la 
pratique. 

Ainsi, il est apparu que le systeme d'integration contenu dans 
des vecteurs de I'etat de la technique, et notamment dans les vecteurs 
20 decrits dans le brevet europeen n°EP 0 350 41 ne permettait pas en 
realite une bonne integration de Tinsert d'ADN de la banque au sein du 
chromosome bacterien. 

Partant de I'hypothese que les deficits fonctionnels d'integration 
25 de tels vecteurs au sein du chromosome bacterien etaient dus a un 
defaut dans I'expression du gene de I'integrase present dans ces 
vecteurs, le demandeur a tout d'abord cherche a augmenter I'expression 
du gene de I'integrase en substituant au promoteur de la transcription 
initial un promoteur de la transcription susceptible d'augmenter 
30 significativement le nombre de transcrits de I'integrase. 

Les resultats ont ete decevants et la fonction d'integration au 
chromosome de ces vecteurs n'a pas ete am6lioree. 

De maniere surprenante, il a ete montre selon I'invention que 
les difficultes d'expression de I'integrase contenues dans cette famille de 
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vecteurs integratifs ne se situait pas au niveau de la quantite 
d'expression des transcrits, mais au niveau de leur stabilite. 

Selon une seconde hypoth^se, le demandeur a pu montrer que 
le defaut de stabilite des transcrits de I'integrase etait cause par des 
5 deficits dans la terminaison de la transcription de TARN messager 
correspondant. 

Le demandeur a alors insere un site terminateur place en aval 
de la sequence codant pour I'integrase du vecteur de maniere a obtenir 
un ARN messager de taille determinee. L'insertion d'un signal de 
10 terminaison additionnel en aval de la sequence nucleotidique codant 
pour I'integrase du vecteur a permis I'obtention d'une famille de vecteurs 
integratifs de type cosmide et de type BAC . 

Preferentiellement, le site terminateur est place en aval du site 
d'attachement att. 

15 

En outre, le demandeur a mis au point de nouveaux vecteurs 
conjugatifs et de nouveaux vecteurs replicatifs du type cosmide et de 
nouveaux vecteurs conjugatifs de type BAC qui peuvent 
avantageusement etre utilises pour I'insertion des acides nucleiques 

20 constitutifs d'une collection d'acides nucleiques prepares selon le 
procede de I'invention. 

Lorsque I'insertion de fragments d'ADN de taille moyenne est 
recherchee, on utilise preferentiellement des vecteurs du type cosmide, 
capables de recevoir des inserts ayant une taille maximale d'environ 50 

25 kb. 

De tels vecteurs cosmidiques sont tout particulierement adaptes 
pour I'insertion d'acides nucleiques constitutifs d'une collection d'acides 
nucleiques obtenus selon le procede de I'invention comprenant une 
premiere etape d'extraction directe d'ADN par lyse mecanique des 

30 organismes contenus dans I'echantiilon de sol initial. 

Lorsque I'insertion d'acides nucleiques de grande taille, en 
particulier d'acides nucleiques d'une taille superieure a 100 kb, voire 
superieure a 200, 300, 400, 500 ou 600 kb est recherchee, on aura alors 
recours preferentiellement a des vecteurs du type BAC capables de 

35 recevoir des inserts d'ADN d'une telle taille. 
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De tels vecteurs de type BAC sont tout particulierement 
adaptes pour I'insertion des acides nucleiques constitutifs d'une 
collection d'acides nucleiques obtenus conformement au procede selon 
I'invention dans lequel la premiere etape est constitute d'une extraction 
5 indirecte de I'ADN par separation prealable des organismes contenus 
dans I'echantillon de sol initial et elimination des macro-constituants 
dudit echantillon de sol. 

En particulier, des vecteurs du type BAC sont avantageusement 
mis en oeuvre pour I'insertion d'acides nucleiques de grande taille 
10 contenant, au moins partiellement, la sequence nucleotidique d'un 
operon. 

Ainsi, le procede de preparation d'une collection de vecteurs 
recombinants de clonage et/ou d'expression selon I'invention est en 
outre caracterise en ce que le vecteur de clonage et/ou d'expression est 
15 du type plasmide. 

Selon un autre aspect, un tel procede est caracterise en ce que 
le vecteur de clonage et/ou d'expression est du type cosmide. 

Selon un premier aspect, il peut s'agir d'un cosmide replicatif 
chez E.coli et integratif chez Streptomyces. Un vecteur cosmidique tout a 
20 fait prefere repondant a une telle definition est le cosmide pOS700l 
decrit a I'exemple 3. 

Selon encore un autre aspect, le vecteur cosmidique est 
conjugatif et integratif chez Streptomyces. 

De maniere generate, des vecteurs conjugatifs de type cosmide 
25 ou de type BAC, qui comprennent dans leurs sequences nucleotidiques 
un motif reconnu par la machinerie enzymatique cellulaire appele 
" origine de conjugaison " sont utilises chaque fois que Ton veut eviter un 
recours a des techniques de transformation lourdes et peu 
automatisables. 

30 Par exemple, la transfection de vecteurs initialement heberges 

par des cellules de E.coli dans des cellules de Streptomyces necessite 
classiquement une etape de recuperation du vecteur recombinant 
contenu dans les cellules de Escherichia colt\ et sa purification pr6alable 
a I'etape de transformation de protoplastes de Streptomyces. II est 

35 communement admis qu'une transfection d'un ensemble de 1000 clones 
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de Escherichia coli dans Streptomyces requiert I'obtention d'environ 
8000 clones pour que chaque clone de E. coli ait une chance d'etre 
represents. 

A Tinverse, une etape de transfection par conjugaison d'un 
vecteur heberge par E.coli vers des cellules de Streptomyces necessite 
le meme nombre de clones de chacun des micro-organismes, I'etape de 
conjugaison ayant lieu " clone a clone " et ne comprenant en outre pas 
les difficultes techniques liees a I'etape de transfert de materiel 
gen6tique par transformation de protoplastes, par exemple en presence 
de polyethylene glycol. 

Afin d'optimiser la construction de banque d'ADN chez 
Streptomyces, il a ete mis au point selon 1'invention, de nouveaux 
vecteurs conjugatifs de type cosmide et de type BAC de nature a 
permettre une efficacite maximale de I'etape de conjugaison. 

Notamment, les nouveaux vecteurs conjugatifs selon invention 
ont ete construits en pla$ant un gene marqueur de selection a I'extremite 
de I'ADN du vecteur qui est transfere a la bacterie receptrice en dernier 
lieu.Ce perfectionnement aux vecteurs conjugatifs de I'etat de la 
technique permet de ne selectionner positivement que les bacteries 
receptrices ayant regu la totalite de I'ADN du vecteur et, en 
consequence, la totalite de I'ADN de I'insert d'interet. 

Des cosmides conjugatifs et integratifs chez Streptomyces 
preferes selon invention sont les cosmides pOSV303, pOSV306 et 
POSV307 decrits a Texemple 5. 

Selon un autre aspect, un procede de preparation d'une 
collection de vecteurs recombinants selon I'invention est mis en oeuvre a 
I'aide d'un cosmide replicatif a la fois chez E.coli et chez Streptomyces. 
Un tel cosmide est avantageusement le cosmide pOS 700R decrit a 
Texemple 6. 

Selon encore un autre aspect, le procede ci-dessus peut etre 
mis en oeuvre avec un cosmide replicatif chez E. coli et Streptomyces et 
conjugatif chez Streptomyces. 

Un tel cosmide replicatif et conjugatif peut etre obtenu a partir 
d'un cosmide replicatif cpnforme a I'invention, par rinsertion d'une 
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origine de transfert appropriee, telle que RK2, comme decrit a I'exemple 
5 pour la construction du vecteur pOSV303. 

Selon un autre mode de realisation avantageux du procede de 
preparation d'une collection de vecteurs recombinants selon I'invention, 
5 on a recours a un vecteur de clonage et/ou d'expression de type BAC. 

Selon un premier aspect, le vecteur du type BAC est integratif 
et conjugatif chez Streptomyces, 

De maniere tout a fait preferee, un tel vecteur BAC integratif et 
conjugatif chez Streptomyces est le vecteur BAC pOSV 403 decrit a 
10 I'exemple 8, ou encore les vecteurs BAC pMBD-1, pMBD-2, pMBD-3, 
pMBD-4, pMBD-5 et pMBD-6 demerits a I'exemple 15. 

L'invention a en outre pour objet un vecteur recombinant 
caracterise en ce qu'il est choisi parmi les vecteurs recombinants 
suivants: 

15 a) un vecteur comprenant un acide nucleique constitutif d'une 

collection d'acides nucleiques selon l'invention; 

b) un vecteur tel qu'obtenu selon un procede eliminant tout 

recours a Taction d'une endonuclease de restriction sur le fragment 

d'ADN a inserer, tel que decrit precedemment. 
20 De maniere tout a fait preferee, invention est egalement 

relative a un vecteur choisi parmi les vecteurs suivants: 

- le cosmide pOS700l; 

- le cosmide pOSV303; 
25 - le cosmide pOSV306; 

- le cosmide pOSV307; 

- le cosmide pOS700R; 

- le vecteur BAC pOSV403; 

- le vecteur BAC pMBD-1 ; 
30 - le vecteur BAC pMBD-2; 

- le vecteur BAC pMBD-3; 

- le vecteur BAC pMBD-4; 

- le vecteur BAC pMBD-5; 

- le vecteur BAC pMBD-6. 

35 
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L'invention est en outre relative a une collection de vecteurs 
recombinants tels qu'obtenus selon I'un quelconque des procedes selon 
('invention. 

5 Procede de preparation d'un vecteur recombinant de clonaqe et/ou 
d'expression selon l'invention. 

Les techniques conventionnelles d'insertion d'ADN au sein d'un 
vecteur afin de preparer un vecteur de clonage et/ou d'expression 
10 recombinant font classiquement appel a une premiere etape au cours de 
laquelle une endonuclease de restriction est incubee a la fois avec I'ADN 
a inserer et avec le vecteur recepteur creant ainsi des extremites 
compatibles entre I'ADN a inserer et I'ADN du vecteur permettant 
I'assemblage des deux ADN avant une etape de ligation finale 
15 permettant I'obtention du vecteur recombinant. 

Toutefois, une telle technique conventionnelle presente des 
inconvenients notables, tout particulierement lorsque est recherchee 
I'insertion d'acides nucleiques de grande taille dans un vecteur de 
clonage et/ou d'expression. 
20 En effet, Taction prealable d'une enzyme de restriction sur les 

fragments d'ADN destines a etre inseres dans un vecteur est susceptible 
de reduire notablement la taille de cet ADN prealablement a son 
insertion dans le vecteur. II va sans dire qu'une reduction significative de 
la taille de I'ADN prealablement a son insertion sur un vecteur est une 
25 situation particulierement defavorable lorsqu'est recherche le clonage de 
fragments d'ADN de grande taille susceptible de contenir I'ensemble des 
sequences codantes et, le cas echeant, egalement des sequences 
regulatrices, d'un operon dont I'expression constitue une voie de 
biosynthese complete d'un metabolite d'interet industriel, et tout 
30 particulierement d'un compose d'interet therapeutique. 

Pour remedier aux inconvenients des techniques de I'art 
anterieur, il a ete mis au point selon l'invention deux procedes de 
preparation d'un vecteur recombinant de clonage et/ou d'expression qui 
ne necessitent pas le recours a une endonuclease de restriction sur 
35 I'ADN a inserer prealablement a son introduction au sein du vecteur. De 
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tels procedes sont en consequence tout a fait adaptes au clonage de 
longs fragments d'ADN susceptibles de contenir, au moins partiellement, 
I'ensemble des sequences codantes et, le cas echeant, egalement des 
sequences regulatrices, d'un operon complet responsable d'une voie de 
5 biosynthese. 

Selon un premier aspect, un proc6de de preparation d'un 
vecteur recombinant de clonage et/ou d'expression selon I'invention est 
caracterise en ce que 1'insertion d'un acide nucleique dans le vecteur de 
clonage et/ou d'expression, comprend les etapes suivantes: 

10 

- ouvrir le vecteur de clonage et/ou d'expression a un site de 
clonage choisi, a I'aide d'une endonuclease de restriction appropriee; 

- ajouter un premier acide nucleique homopolymerique a 
15 I'extremite 3' fibre du vecteur ouvert; 

- ajouter un second acide nucleique homopolymerique, de 
sequence comptementaire au premier acide nucleique 
homopolymerique, a I'extr6mite 3' libre de I'acide nucleique a inserer 

20 dans le vecteur; 

- assembler I'acide nucleique du vecteur et I'acide nucleique par 
hybridation du premier et du second acide nucleique homopolymerique 
de sequences complementaires I'une de I'autre; 

25 

- refermer le vecteur par ligation. 

Un tel procede est decrit aux exemples 10 et 13 ci-apres. 
De maniere avantageuse, le procede ci-dessus peut comporter 
30 les caracteristiques suivantes, isolement ou en combinaison: 

- le premier acide nucleique homopolymerique est de sequence 
poly(A) ou poly(T); 
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- le second acide nucleique homopolymerique est de sequence 
poly(T) ou poly(A). 

De maniere tout a fait preferee, les acides nucleiques 
5 homopolymeriques ont une longueur comprise entre 25 et 100 bases 
nucleotidiques, preferentiellement entre 25 et 70 bases nucleotidiques. 

Le procede de preparation d'un vecteur recombinant de 
clonage et/ou d'expression decrit ci-dessus est particulierement adapts a 
la construction de banques d'ADN dans des vecteurs de type BAC. 
10 Ainsi, selon un mode de realisation avantageux du procede de 
preparation d'un vecteur recombinant d6crit ci-dessus, ledit proc§de est 
en outre caracterise en ce que la taille de I'acide nucleique a inserer est 
d'au moins 100 kb, et preferentiellement d'au moins 200, 300, 400, 500 
ou 600 kb. 

is Un tel procede de preparation est done particulierement adapte 

a 1'insertion des acides nucleiques contenus dans une collection d'acides 

nucleiques obtenus selon le procede de I'invention. 

Afin de permettre 1'insertion de fragments d'ADN de grande 

taille dans des vecteurs de clonage et/ou d'expression, ii a ete mis au 
20 point selon invention , un second procede ayant permis d'eliminer tout 

recours a Taction d'une endonuclease de restriction sur I'ADN destine a 

etre insere au sein du vecteur. 

Un tel procede de preparation d'un vecteur recombinant de 

clonage et/ou d'expression selon invention est caracterise en ce que 
25 I'etape d'insertion d'un acide nucleique dans ledit vecteur de clonage 

et/ou d'expression comprend les etapes suivantes: 

- creation de bouts francs sur les extremites de I'acide 
nucleique de la collection par elimination des sequences 3' sortantes et 

30 remplissage des sequences 5' sortantes; 

- ouverture du vecteur de clonage et/ou d'expression a un site 
de clonage choisi a I'aide d'une endonuclease de restriction appropriee; 

35 - adition d'adaptateurs oligonucleotidiques complementaires ; 
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- creation de bouts francs aux extremites de I'acide nucleique 
du vecteur par elimination des sequences 3' sortantes et remplissage 
des sequences 5' sortantes, puis dephosphorylation des extremites 5* 

5 afin de prevenir une recircularisation du vecteur; 

- insertion de I'acide nucleique de la collection dans le vecteur 
par ligation. 

io De maniere preferee, I'elimination des sequences 3' sortantes 

est realisee a I'aide d'une exonuclease, telle que I'enzyme de Klenow. 

De maniere preferee, le remplissage des sequences 5' 
sortantes est realise a I'aide d'une polymerase, et de maniere tout a fait 
preferee de la T4 polymerase, en presence des quatre nucleotides 
is triphosphates. 

Un procede de preparation d'un vecteur recombinant de 
clonage et/ou d'expression par elimination des sequences 3' sortantes et 
remplissage des sequences 5* sortantes tel que decrit ci-dessus est 
particulierement adapte a la construction de banques d'ADN a partir de 
20 vecteurs de type cosmide. 

Un tel procede d'obtention de vecteurs recombinants est decrit 
a I'exemple 12. 

Dans un mode particulier de preparation d'un vecteur 
recombinant selon Tinvention, des oligonucleotides comprenant un ou 
25 plusieurs sites de restriction rares sont ajoutes sur le vecteur au niveau 
du site de clonage de I'ADN a inserer, conformement a I'enseignement 
de I'exemple 10. Cet ajout d'oligonucleotides facilite la recuperation 
ulterieure des inserts sans clivage de ces derniers. 

30 CELLULES HOTES 

Bien que tout type de cellules hotes puisse etre utilise pour la 
transfection ou la transformation avec un acide nucleique ou un vecteur 
recombinant selon I'invention, notamment une cellule hote procaryote ou 
35 eucaryote, on utilisera de preference des cellules hotes dont les 
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caracteres physiologiques, biochimiques et g6netiques sont bien 
caracterises, facilement cultivables a grande echelle et dont les 
conditions de culture pour la production de metabolites soient bien 
connues. 

5 De maniere preferentielle, la cellule hote receptrice d'un acide 

nucleique ou d'un vecteur recombinant selon invention est 
phylogenetiquement proche des organismes donneurs contenus 
initialement dans I'echantillon de I'environnement desquels les acides 
nucleiques sont originates. 

10 De maniere tout a fait preferee, une cellule hote selon 

Tinvention doit posseder un usage des codons similaire, ou du moins 
proche, des organismes donneurs presents initialement dans 
Techantillon de I'environnement, tout particulierement de Techantillon de 
sol. 

is La taille des fragments d'ADN susceptible de porter les 

sequences nucleotidiques d'interet recherchees peut etre variable. Ainsi, 
des enzymes codees par des genes de taille moyenne de 1 kb pourront 
etre exprimees a partir d'inserts de petite taille alors que Texpression de 
metabolites secondaires necessiteront le maintien dans Torganisme hote 
20 de fragments de taille bien superieure, par exemple de 40 kb a plus de 
100 kb, 200 kb, 300 kb, 400 kb ou 600 kb. 

Ainsi, les cellules hotes de Escherichia coli constituent un choix 
privilegie pour le clonage de grands fragments d'ADN. 

De maniere tout £ fait preferee, on aura recours a Tutilisation de 
25 la souche de Escherichia coli designee DH10B et decrite par Shizuya et 
al; (1992) pour laquelle des protocoles de clonage dans des vecteurs 
BAC ont ete optimises. 

Toutefois, d'autres souches de Escherichia coli peuvent etre 
avantageusement utilisees pour la construction d'une banque d'ADN 
30 selon Tinvention, telles que les souches E.coii Sure, E.coli DH5 a, ou 
encore E.coli 294 (ATCC N°31446). 

En outre, la construction d'une banque d'ADN par transfection 
de cellules de E.coli avec des vecteurs recombinants selon Tinvention 
est egalement possible, Texpression de genes de divers procaryotes tels 
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que Bacillus, Thermotoga, Corynebacterium, Lactobacillus ou 
Clostridium ayant ete decrite dans la demande PCT N°WO 99/20799. 

De maniere generate, des cellules hotes de E.cofi peuvent dans 
5 tous les cas constituer des hotes transitoires dans lesquels des vecteurs 
recombinants selon Tinvention pourront etre maintenus avec une grande 
efficacite, le materiel genetique pouvant etre facilement manipule et 
archive et fa?on stable. 

Dans le but d'exprimer la plus grande diversite moleculaire 
10 possible, d'autres hotes cellulaires pourront etre egalement 
avantageusement mis en oeuvre tels que des cellules de Bacillus, 
Pseudomonas, Streptomyces, Myxococcus, Aspergillus nidulans ou 
encore Neurospora crassa. 

II a en outre ete montre selon la presente invention, que des 
15 cellules de Streptomyces lividans peuvent etre utilisees avec succes et 
constituent des systemes depression complementaires a Escherichia 
coli. 

Streptomyces lividans constitue un modele pour I'etude de la genetique 
des Streptomyces et a egalement ete utilise comme hote d'expression 

20 heterologue de nombreux metabolites secondaires. Streptomyces 
lividans, possede en commun avec d'autres actinomycetes tels que 
Streptomyces coelicolor, Streptomyces griseus, Streptomyces fradiae, 
ainsi que Streptomyces griseochromogenes, les molecules precurseurs 
et les systemes de regulation necessaires a Texpression de tout ou 

25 partie des voies de biosyntheses complexes, telles que par exemple la 
voie de biosynth^se des polyketides ou encore la voie de biosynthese 
des polypeptides non ribosomiques representant des classes de 
molecules de structures tres diverses. 

Streptomyces lividans presente egalement I'avantage 

30 d'accepter I'ADN etranger avec des efficacites de transformation 
elevees. 

Ainsi, invention concerne aussi une cellule hote recombinante 
comprenant un acide nucleique selon Hnvention, constitutif d'une 
collection decides nucleiques pr6paree selon un procede conforme a 
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rinvention, ou encore une cellule hote recombinante comprenant un 
vecteur recombinant tel que defini precedemment. 

Selon un premier aspect, il peut s'agir d'une cellule hote 
recombinante d'origine procaryote ou eucaryote. 
5 Avantageusement, une cellule recombinante selon rinvention 

est une bacterie, et de maniere tout a fait preferee une bacterie choisie 
parmi E.coli et Streptomyces. 

Selon un autre aspect, une cellule hote recombinante selon 
invention est caracterisee en ce qu'il s'agit d'une levure ou encore d'un 

10 champignon filamenteux. 

L'invention a egalement trait a une collection de cellules hotes 
recombinantes, chacune des cellules hotes constitutive de la collection 
comprenant un acide nucleique provenant d'une collection d'acides 
nucleiques realisee conformement a un procede de preparation d'une 

15 collection d'acides nucleiques a partir d'un echantillon de sol contenant 
des organismes tel que decrit ci-dessus. 

L'invention est egalement relative a une collection de cellules 
hotes recombinantes, chacune des cellules hotes constitutives de la 
collection comprenant un vecteur recombinant selon rinvention. 

20 En raison de la grande taille des inserts il est necessaire d'avoir 

une efficacite maximale de transformation. Dans ce but, une souche 
receptrice de Streptomyces lividans exprimant I'integrase de pSAM2 de 
fagon constitutive afin de favoriser Integration site-specifique du vecteur 
est preferee. Pour cela, le gene int sous controle d'un promoteur fort est 

25 integre dans le chromosome. La surproduction d'integrase n'induit pas 
de phenomenes d'excision (Raynal et al., 1998). 

La production d'un nouveau metabolite a partir de I'insert 
pourrait etre toxique pour Streptomyces si ('insert ne contient pas de 
genes de resistance a I'antibiotique produit ou si ce gene est peu ou pas 

30 exprime. La capacite des differents genes permettant a Streptomyces 
ambofaciens de resister a I'antibiotique qu'il produit est etudiee 
(Gourmelen et al, 1998; Pernodet et al., 1999). Certains de ces genes 
codent des transporters de type ABC susceptibles de conferer un large 
spectre de resistance. Ces genes peuvent etre introduits et surexprimes 

35 dans la souche hote de Streptomyces lividans. 



vJSDOCID: <WO 014O497A2 I > 



WO 01/40497 



47 



PCT/FR00/0331 1 



A linverse, une souche hypersensible aux antibiotiques peut 
etre utilisee (Pernodet et al., 1996), afin de detecter dans la banque la 
presence de genes de resistance. En effet, chez les micro-organismes 
producteurs d'antibiotique, ces genes de resistance sont souvent 
5 associes aux genes de la voie de biosynthese de I'antibiotique. La 
selection de clones resistants peut permettre d'effectuer simplement un 
premier tri avant les tests plus complexes de detection d'un nouveau 
metabolite produit par le clone. 

10 ISOLEMENT ET CARACTER1SATION DE NOUVELLES SEQUENCES 
NUCLEOT1DIQUES CODANT POUR PES POLYKETIPES 
SYNTHASES. 

Selon I'invention, une collection de cellules hotes 
15 recombinantes a ete obtenue apres transfection des cellules hotes par 
une collection de vecteurs recombinants contenant chacun un insert 
d'acide nucleique provenant d'une collection d'acides nucleiques 
preparee conformement au procede selon I'invention. 

Plus precisement, les fragments d'ADN obtenus selon le 
20 procede de ('invention dans lequel il est mis en oeuvre une etape 
d'extraction indirecte d'ADN des organismes contenus dans I'echantillon 
de sol ont ete tout d'abord clones dans le cosmide integratif pOS700l. 

L'etape d'insertion des fragments d'ADN dans le cosmide 
integratif pOS700l a ete realisee selon le procede de invention dans 
25 lequel des queues de polynucleotides homopolymeriques poly(A) et 
poly(T) ont ete ajoutees a I'extremite 3' respectivement de I'acide 
nucl6ique du vecteur et des fragments d'ADN a inserer. 

Les vecteurs recombinants ainsi construits ont ete encapsides 
dans des tetes de phage lambda et les phages obtenus ont ete utilises 
30 pour infecter des cellules de E. coli selon des techniques bien connues 
de I'homme du metier. 

Une banque d'environ 5000 clones de Escherichia coli a 6te 

obtenue. 

Cette banque de clones a ete criblee avec des couples 
35 d'amorces specifiques d'une sequence nucleotidique codant pour une 
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enzyme impliquee dans la voie de biosynthese des polyketides, I'enzyme 
PKS de type I, aussi designee p-ketoacyl synthase . 

On rappelle ici que les polyketides constituent une classe 
chimique d'une grande diversite structurale comprenant un nombre 
5 important de molecules d'interet pharmaceutique tels que la tylosine, la 
monensine, la vermectine, rerythromycine, la doxorubicine ou encore le 
FK506. 

Les polyketides sont synthetises par condensation de 
molecules d'acetate sous Taction d'enzymes appelees polyketide 

10 synthases (PKSs). II existe deux types de polyketide synthases. Les 
polyketide synthases de type II sont impliquees en general dans la 
synthese des antibiotiques aromatiques polycycliques et catalysent la 
condensation d'unites acetate de fagon iterative. 

Les polyketide synthases de type I sont impliquees dans la 

15 synthese des polyketides macrocycliques ou macrolides et constituent 
des enzymes modulaires multifonctionnelles. 

Compte-tenu de leur interet therapeutique, il existe un besoin 
dans I'etat de la technique d'isoler et de caracteriser de nouvelles 
polyketides synthases qui peuvent etre utilisees pour la production de 

20 nouveaux composes pharmaceutiques, notamment de nouveaux 
composes pharmaceutiques a activite antibiotique. 

Le criblage de la banque de clones recombinants decrite ci- 
dessus a I'aide d'amorces PCR amplifiant selectivement des sequences 
nucleotidiques codant pour des polyketide synthases de type I a permis 

25 d'identifier des clones recombinants contenant des inserts d'ADN 
comprenant une sequence nucleotidique codant pour de nouvelles 
polyketide synthases. Les sequences nucleotidiques codant pour ces 
nouvelles polyketides synthases sont referencees comme les sequences 
SEQ ID N°33 a SEQ ID N°44 et SEQ ID N°1 15 a SEQ ID N°120. 

30 Un autre objet de invention consiste en un acide nucleique 

codant pour une nouvelle polyketide synthase I, caracterise en ce qu'il 
comprend Tune des sequences nucleotidiques SEQ ID N°34 a SEQ ID 
N°44 et SEQ ID N°1 15 a SEQ ID N°120. 

De preference, un tel acide nucleique se presente sous une 

35 forme isolee et/ou puriftee. 
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L'invention concerne aussi un vecteur recombinant comprenant 
un polynucleotide comprenant I'une des sequences SEQ ID N°34 a SEQ 
ID N°44 etSEQ ID N°115a SEQ ID N°120 

L'invention a egalement trait a une cellule hote recombinante 
5 comprenant un acide nucleique choisi parmi les polynucleotides 
comprenant I'une des sequences nucleotidiques SEQ ID N°34 a SEQ ID 
N°44 et SEQ ID N° 115 a SDEQ ID N°120 ainsi qu'a une cellule hote 
recombinante comprenant un vecteur recombinant dans lequel est 
insere un polynucleotide comprenant I'une des sequences 
10 nucleotidiques SEQ ID N°34 a SEQ ID N°44 et SEQ ID N°115 a SEQ ID 
N°120. 

Avantageusement, les vecteurs recombinants contenant un 
insert d'ADN codant pour une nouvelle polyketide synthase de type I 
selon l'invention sont des vecteurs de clonage et d'expression. 
15 De preference, une cellule hote recombinante telle que decrite 

ci-dessus est une bacterie, une levure ou encore un champignon 
filamenteux. 

Les sequences en acides amines de nouvelles polyketide 
synthases provenant d'organismes contenus dans un echantillon de sol 

20 ont ete deduites des sequences nucleotidiques SEQ ID N°34 a SEQ ID 
N°44 ET SEQ ID N° 115 a SEQ ID N°120 ci-dessus. II s'agit des 
polypeptides comprenant I'une des sequences en acides amines SEQ ID 
N°48 a SEQ ID N°59 et SEQ ID N° 121 a 126. 

L'invention concerne encore de nouvelles polyketides 

25 synthases comprenant une sequence en acides amines choisie parmi 
les sequences SEQ ID N°48 a SEQ ID N°59 et SEQ ID N° 121 a SEQ ID 
N°126. 

Fait egalement partie de l'invention la sequence nucleotidique 
SEQ ID N°114 qui comprend six cadres ouverts de lecture qui codent 
30 respectivement les polypeptides de sequences SEQ ID N°121 a SEQ ID 
N°126. 

Fait egalement partie de l'invention la sequence nucleotidique 
SEQ ID N°113 du cosmide a26G1, qui contient la sequence 
complementaire de la sequence SEQ ID N°1 14. 
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On a aussi extrait et amplifies selon I'invention de I'ADN 
genomique provenant de souches bacteriennes pures, telles que 
Streptomyces coelicolor (ATCC N°101.478), Streptomyces ambofaciens 
(NRRL N°2.420), Streptomyces lactamandurans (ATCC N°27.382), 
Streptomyces rimosus (ATCC N°1 09.610), Bacillus subtilis (ATCC 
N°6633) ou encore Bacillus lichenifomis et Saccharopolyspora erythrea. 

Une amplification par PCR de I'ADN de chacune des souches 
bacteriennes decrites ci-dessus a ete effectuee a I'aide des couples 
d'amorces specifiques des sequences nucleiques de polyketide 
synthase de type I. 

De nouveaux genes de polyketide synthases de type I 
bacteriennes ont ainsi pu etre isoles et caracterises. II s'agit des 
sequences nucleiques de sequences SEQ ID N°30 a SEQ ID N°32. 

L'invention a done en outre pour objet des sequences 
nucleotidiques codant pour de nouvelles polyketides synthases de type I 
choisies parmi les polynucleotides comprenant Tune des sequences 
nucleotidiques SEQ ID N°30 a SEQ ID N°32. 

Font egalement partie de l'invention des vecteurs recombinants 
comprenant les sequences nucleotidiques codant pour de nouvelles 
polyketides synthases de type I definies ci-dessus. 

L'invention concerne aussi des cellules hotes recombinantes 
caracterisees en ce qu'elles contiennent un acide nucleique codant pour 
une nouvelle polyketide synthase de type I comprenant une sequence 
nucleotidique choisie parmi les sequences SEQ ID N°30 a SEQ ID N°32 
ainsi que des cellules hotes recombinantes comprenant un vecteur 
recombinant tel que defini ci-dessus. 

L'invention a egalement pour objet des polypeptides codes par 
des sequences comprenant les acides nucleiques SEQ ID N° 30 a 32, et 
plus precisement des polypeptides comprenant les sequences d'acides 
amines SEQ ID N° 47 a SEQ ID N° 50. 

L'invention a en outre pour objet un procede de production 
d'une polyketide synthase de type I selon I'invention, ledit procede de 
production comprenant les etapes suivantes: 
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- obtention d'une cellule hote recombinante comprenant un 
acide nucleique codant pour une polyketide synthase de type I 
comprenant une sequence nucleotidique choisie parmi les sequences 
SEQ ID N°33 a SEQ ID N°44, SEQ ID N°30 a SEQ ID N°32 et SEQ ID 

5 N°115aSEQ ID N°120; 

- culture des cellules hotes recombinantes dans un milieu de 
culture approprie; 

10 - recuperation et, le cas echeant, purification de la polyketide 

synthase de type I a partir du surnageant de culture ou du lysat 
cellulaire. 

Les nouvelles polyketide synthases de type I obtenues selon le 
15 precede decrit ci-dessus peuvent etre caracterisees par fixation sur une 
colonne de chromatographie d'immuno-affinite sur laquelle des anticorps 
reconnaissant ces polyketides synthases ont ete prealablement 
immobilises. 

Les polyketide synthases de type I selon I'invention, et plus 
20 particulierement les polyketide synthases recombinantes decrites ci- 
dessus peuvent etre aussi purifiees par des techniques de 
chromatographie liquide a haute performance (HPLC), telles que par 
exemple des techniques de chromatographie en phase inverse ou de 
chromatographie d'echanges d'anions ou de cations, bien connues de 
25 I'homme du metier. 

Les polyketide synthases, recombinantes ou non 
recombinantes, selon I'invention peuvent etre utilisees pour la 
preparation d'anticorps. 

Selon un autre aspect, I'invention a done encore pour objet un 
30 anticorps reconnaissant specifiquement une polyketide synthase de type 
I selon I'invention ou un fragment peptidique d'une telle polyketide 
synthase. 

Les anticorps selon I'invention peuvent etre monoclonaux ou 
polyclonaux Les anticorps monoclonaux peuvent etre prepares a partir 
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de cellules d'hybridome selon la technique decrite par KOHLER et 
MILSTEIN C. (1975), Nature, Vol.256:495. 

Les anticorps polyclonaux peuvent etre prepares par 
immunisation d'un mammifere, en particulier des souris, des rats ou des 
lapins avec une polyketide synthase de type I selon Tinvention, le cas 
echeant en presence d'un compose adjuvant de I'immunite, tels que 
('adjuvant complet de Freund, ('adjuvant incomplet de Freund, 
I'hydroxyde d'aluminium ou encore un compose de la famille des 
muramyl peptides. 

Constituent egalement des " anticorps " au sens de la presente 
invention, les fragments d'anticorps tels que les fragments Fab, Fab', 
F(ab') 2 , ou encore les fragments d'anticorps simple chaine contenant la 
partie variable (ScFv) decrits par MARTI NEAU et al. (1998) J. Mol. Biol., 
Vol.280 (1):1 17-127 ou encore dans le brevet US 4,946,778, ainsi que 
les anticorps humanises decrits par REINMANN KA et al. (1997), AIDS 
Res. Hum. Retroviruses, vol.13(11):933-943 ou par LEGER O.J et al. 
(1997), Hum. Antibodies, vol.8 (1): 3-16. 

Les preparations d'anticorps selon Tinvention sont utiles 
notamment dans des tests immunologiques qualitatifs ou quantitatifs 
visant, soit a simplement detecter la presence d'une polyketide synthase 
de type I selon Tinvention, soit a quantifier la quantite de cette polyketide 
synthase, par exemple dans le surnageant de culture ou le lysat 
cellulaire d'une souche bacterienne susceptible de produire une telle 
enzyme. 

Un autre objet de Tinvention consiste en un precede de 
detection d'une polyketide synthase de type I selon Tinvention ou un 
fragment peptidique de cette enzyme, dans un echantillon, ledit precede 
comprenant les etapes de : 

a) mettre en contact un anticorps selon Tinvention avec 
Techantillon a tester; 



forme. 



b) detecter le complexe antigene/anticorps eventuellement 
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L'invention est egalement relative a un kit ou necessaire de 
detection d'une polyketide synthase de type I selon l'invention dans un 
echantillon, comprenant : 

a) un anticorps selon l'invention; 
5 b) le cas echeant, des reactifs necessaires a la detection du 

complexe antigene/anticorps eventuellement forme. 

Un anticorps dirige contre une polyketide synthase de type I 
selon l'invention peut etre marque a I'aide d'un marqueur detectable 
isotopique ou non isotopique, selon des precedes bien connus de 
10 I'homme du metier. 

Le criblage d'une banque d'ADN selon l'invention a I'aide d'une 
paire d'amorces hybridant avec des sequences cibles dont la presence 
est recherchee, telles que des sequences de la voie de biosynthese de 
la puromycine, des sequences du gene HnA impliquees dans la 
15 biodegradation du lindane ou encore des sequences codant pour des 
polyketides synthases de type I ont ete detaillees ci-avant. 

L'invention a done pour objet un procede de detection d'un 
acide nucleique de sequence nucleotidique determinee, ou de sequence 
nucleotidique structuralement apparentee a une sequence nucleotidique 
20 determinee, dans une collection de cellules hotes recombinantes selon 
l'invention, caracterise en ce qu'il comprend les etapes suivantes: 

- mettre en contact la collection de cellules hdtes 
recombinantes avec un couple d'amorces hybridant avec la sequence 
nucleotidique determinee ou hybridant avec la sequence nucleotidique 

25 structurellement apparentee a une sequence nucleotidique determinee; 

- realiser au moins trois cycles d'amplification ; 

- detecter I'acide nucleique eventuellement amplifie. 

Pour les conditions d'amplification appropriees en fonction des 
30 sequences cibles recherchees, I'homme du metier pourra se referer 
avantageusement aux exemples ci-dessous. 

Selon un autre aspect, l'invention concerne aussi un procede 
de detection d'un acide nucleique, de sequences nucleotidiques 
determinees, ou de sequences nucleotidiques structurellement 
35 apparentees a une sequence nucleotidique determinee, dans une 
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collection de cellules notes recombinantes selon I'invention, caracterise 
en ce qu'il comprend les etapes suivantes: 

- mettre en contact la collection de cellules notes 
recombinantes avec une sonde hybridant avec la sequence 

5 nucleotidique determinee ou hybridant avec une sequence nucleotidique 
structurellement apparentee a la sequence nucleotidique determinee; 

- detecter I'hybride eventuellement forme entre la sonde et les 
acides nucleiques compris dans les vecteurs de la collection. 

10 Pour effectuer le criblage d'une banque d'ADN selon I'invention 

en vue de detecter la presence d'une sequence nucleotidique codant 
pour un polypeptide capable de degrader le lindane, on a detecte les 
clones recombinants d'interet par leur phenotype correspondant a leur 
capacite a degrader le lindane. Dans ce but, les clones isoles et/ou des 

15 ensembles de clones de la banque d'ADN preparee ont ete mis en 
culture dans un milieu de culture en presence de lindane et la 
degradation du lindane a ete observee par la formation d'un halo trouble 
dans I'environnement immediat des cellules. 

L'invention concerne aussi un procede pour identifier la 

20 production d'un compose d'interet par une ou plusieurs cellules notes 
recombinantes dans une collection de cellules notes recombinantes 
selon I'invention, caracterise en ce qu'il comprend les etapes suivantes: 

- culture des cellules hotes recombinantes de la collection dans 
un milieu de culture approprie; 

!5 - detection du compose d'interet dans le surnageant de culture 

ou dans le lysat cellulaire d'une ou plusieurs des cellules recombinantes 
cultivees. 

L'invention a en outre pour objet un procede pour selectionner 
une cellule h6te recombinante produisant un compose d'interet dans une 
o collection de cellules hotes recombinantes selon I'invention, caracterise 
en ce qu'il comprend les etapes suivantes: 

- culture des cellules hotes recombinantes de la collection dans 
un milieu de culture approprie; 
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- detection du compose d'interet dans le surnageant de culture 
ou dans le lysat cellulaire d'une ou plusieurs des cellules hotes 
recombinantes cultivees; 

- selection des cellules hotes recombinantes produisant le 
5 compose d'interet. 



20 



25 



30 



35 



L'invention concerne encore un procede pour la production d'un 
compose d'interet caracterise en ce qu'il comprend les etapes suivantes: 

- cultiver une cellule hdte recombinante selectionnee selon le 
10 procede decrit ci-dessus; 

- recuperer et, le cas echeant, purifier, le compose produit par 
ladite cellule hote recombinante. 

L'invention est egalement relative a un compose d'interet 
caracterise en ce qu'il est obtenu selon le procede ci-dessus decrit. 
15 Un compose d'interet selon l'invention peut consister en un 

polyketide produit grace a I'expression d'au moins une sequence 
nucleotidique comprenant une sequence choisie parmi les sequences 
SEQ ID N°33 a 44, SEQ ID N°30 a 32 et SEQ ID N°115 a SEQ ID 
N°120. 

L'invention concerne encore une composition comprenant un 
polyketide produit grace a ('expression d'au moins une sequence 
nucleotidique comprenant une sequence choisie parmi les sequences 
SEQ ID N°33 a SEQ ID N°44, SEQ ID N°30 a SEQ ID N°32 et SEQ ID 
N°115aSEQ ID N°120. 

Un polyketide produit grace a I'expression d'au moins une 
sequence nucleotidique ci-dessus est preferentiellement le produit de 
I'activite de plusieurs sequences codantes incluses au sein d'un operon 
fonctionnel dont les produits de traduction sont les differentes enzymes 
necessaires a la synthese d'un polyketide, I'une des sequences ci- 
dessus etant comprise et exprimee dans ledit operon. Un tel operon 
comprenant une sequence d'acide nucleique selon l'invention codant 
pour une polyketide synthase peut etre construit par exemple selon 
I'enseignement de Borchert et al. (1992). 

L'invention est encore relative a une composition 
pharmaceutique comprenant une quantite pharmacologiquement active 
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d'un polyketide selon I'invention, le cas echeant en association avec un 
vehicule pharmaceutiquement compatible. 

De telles compositions pharmaceutiques seront 
avantageusement adaptees pour I'administration, par exemple par voie 
parenterale, d'une quantite d un polyketide synthetise par une polyketide 
synthase de type I selon I'invention allant de1ug/kg par jour a 10 mg/kg 
par jour, de preference au moins 0,01 mg/kg par jour et de maniere tout 
a fait preferee entre 0,01 et 1 mg/kg par jour. 

Les compositions pharmaceutiques selon I'invention peuvent 
etre indifferemment administrees par voie orale, rectale, parenterale, 
intraveineuse, sous-cutanee ou encore intradermique. 

L'invention concerne aussi I'utilisation d'un polyketide obtenu 
grace a I'expression d'une polyketide synthase de type I selon I'invention 
pour la fabrication d'un medicament, en particulier d'un medicament a 
15 activite antibiotique. 

L'invention sera en outre illustree, sans pour autant etre limitee, 
par les figures et les exemples ci-apres. 



10 



20 



La figure 1 illustre le schema des differentes etapes de lyse 
effectuees selon les protocoles 1, 2, 3n 4a, 4b, 5a, et 5b decrits a 
I'exemple 1. 

La Figure 2 illustre une. electrophorese sur gel d'agarose 0.8% 
des ADN extraits a partir de 300 mg du sol n°3 (C6te St Andre) apres 
differents traitements de lyse (protocoles 1 a 5, cf. Fig. 1). M : marqueur 
25 de poids moleculaire de phage lambda 



La Figure 3 illustre la proportion de differents genres 
d'actinomycetes cultives a la suite des traitements 1 a 5 (cf. Fig. 1). Le 
nombre d'ufc (unite formant colonie) a ete determine sur un milieu 
selectif pour ce groupe de bacteries. Un nombre total d'environ 400 
colonies a ete analyse. 

La Figure 4 illustre la. recuperation d'ADN de phage lambda 
digere par HindUl additionne dans les sols a differentes concentrations 
avant (G) ou apres (G*) broyage. Les traitements T (chocs thermiques) 
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et S (sonication) sont des traitements additionnels de lyse. La 
quantification a ete realisee par analyse au phospho-imageur apres 
hybridation en dot-blot. Un echantillon de chaque sol a ete utilise pour 
chaque concentration de phage lambda ajoute. Les caracteristiques des 
sol sont reproduites dans le tableau 1. Les echantillons correspondant a 
10 et 15 ug d'ADN ajoute n'ont pas ete traites. 

La Figure 5 illustre ('amplification par PCR des ADN extraits a 
partir de sol n°3 selon les protocoles 1, 2, 3, 5a et 5b. Les amorces 
FGPS 122 et FGPS 350 (tableau 2) ont ete utilises afin de cibler 
Streptosporangium spp. indigenes. Les extraits d'ADN ont ete utilises 
non dilues ou dilues au 1/10* me et 1/100 6me . M : marqueur de poids 
moleculaires 123 pb ( Gibco BRL), C : controle d'amplification sans ADN. 

La Figure 6 illustre les quantites d'ADN extrait apres inoculation de 
spores (a) ou de mycelium (b) de S. lividans OS48.3 inocules dans les 
sols a differentes concentrations. La quantites de mycelium ajoutee dans 
le sol correspond au nombre de spores inoculees dans le milieu de 
germination. Environ 50% des spores ont germe, le nombre de cellules 
ou de genomes contenues dans les hyphes des spores germees n'a pas 
ete determine. Les quantites de spores et de mycelium inoculees ne 
sont done pas directement comparables. Le protocole d'extraction a ete 
mene selon le protocole 6 (cf. section materiel et methodes). Le symbole 
0 indique que de I'ARN a ete inclus dans le tampon d'extraction. L'ADN 
cible a 6te amplifie par PCR avec les amorces FGPS 516 et FGPS 517, 
la quantification a ete realisee par phosphoimageur apres hybridation en 
dot blot en utilisant le sonde FGPS 518. Un echantillon de chaque sol a 
ete utilise pour chaque concentration d'hyphes ou de spores. Les 
caracteristiques des sols sont decrites dans le tableau 1 . 

La figure 7 represents I'arbre phylogenetique obtenu par 
I'algorithme de Neighbour Joining , positionnant les sequences d'ADNr 
16S contenues dans la banque d'ADN du sol, par rapport a des 
bacteries de references cultivees. 

En grise:.les sequences issues des pools de clones de la banque. 
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Les valeurs de bootstrap sont indiquees au niveau des noeuds, 
apres reechantillonnage de 100 repetitions. La barre d'echelle indique le 
nombre de substitutions par site. Le numero d'acces des sequences 
5 dans la base de donnees Genbank est indique entre parentheses. 

La figure 8 represente un schema du vecteur pOSint 1. 

La figure 9 represente un schema du vecteur pWED1 . 

10 

La figure 10 represente un schema du vecteur pWE15 (ATCC 
N° 37503). 

La figure 11 represente un schema du vecteur pOS 700I. 

15 

La figure 12 represente un schema du vecteur pOSV010. 

La figure 13 represente le fragment contenant un site "cos" 
insere dans le plasmide pOSV010 au cours de la construction du vecteur 
20 pOSV 303. 

La figure 14 represente un schema du vecteur pOSV 303. 
La figure 15 represente un schema du vecteur pE1 16. 

25 

La figure 16 represente un schema du vecteur pOS 700 R. 
La figure 17 represente un schema du vecteur pOSV 001. 
30 La figure 18 represente le schema du vecteur pOSV 002. 

La figure 19 represente un schema du vecteur pOSV 014. 
La figure 20 represente un schema du vecteur pBAC 1 1 . 
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La figure 21 represente un schema du vecteur pOSV 403. 

La figure 22 represente les gels d'electrophorese d'ADN de la 
banque apres digestion par les enzymes BamHI et Dral des clones 
5 positifs de la banque criblee avec les oligonucleotides PKS-I, 

La figure 23 illustre la production de puromycine par les 
recombinants de S. lividans comparee a la production de la souche 
sauvage S. alboniger. 

10 

La Figure 24 illustre Alignement de PKSs du sol avec les sites 
actifs conserves d'autres PKSs. Les references pour chaque peptide 
sont indiquees. Les domaines beta-ketoacyl synthase ont ete alignes en 
utilisant le programme PILEUP de GCG (Wisconsin Package Version 
15 9.1 , Genetics Computer Group, Madison, Wise). 

La Figure 25 illustre la construction d'un cosmide integratif 
conjugatif. 

2 ° La Figure 26 illustre la construction d'un BAC integratif 

conjugatif. 

La figure 27 illustre le schema de construction du vecteur pOSV 

308. 

25 

La figure 28 illustre le schema de construction du vecteur 
POSV306. 

La figure 29 illustre le schema de construction du vecteur 
30 pOSV307. 

La figure 30 illustre le schema de construction du vecteur 

PMBD-1 . 
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La figure 31 presente une carte detaillee du plasmide pMBD-2 
ainsi qu'un schema de construction du vecteur pMBD-3. 

La figure 32 illustre une carte detaillee du plasmide pMBD-4. 

5 

La figure 33 illustre le schema de construction du plasmide 
pMBD-5 a partir du plasmide pMBD-1 . 

La figure 34 illustre la carte detaillee du vecteur pBTP-3. 

10 

La figure 35 illustre le schema de construction du vecteur 
pMBD-6 a partir du vecteur pMBD-1. 

La figure 36 illustre la carte du cosmide a26G1 dont I'insert 
15 d'ADN contient des cadres ouverts de lecture codant pour plusieurs 
polyketides synthase. 

La figure 37 est un schema representant 1'insert d'ADN (brin +) 
du cosmide a26G1, sur lequel sont positionnes les differents cadres de 
20 lecture codant pour plusieurs polyketides synthase. 

EXEMPLES: 

EXEMPLE 1: Procede de pr eparation d'une collection d'acides 
nucteiques a partir d'un echa ntillon de sol contenant d*s 
25 orqanismes. comprena nt une etaoe d'extraction directe d'ADN a 
partir de I'echantillon de snl ~~ 

1. MATERIEL ET METHODES 

50 11 SQLS: . Les caracteristiques des six sols utilises dans cette 

etude sont listees dans le tableau 1 . 

La teneur en argile et en matiere organique va respectivement 
de 9 a 47% et de 1 ,7 a 4,7%, le pH variant de 4,3 a 5,8. 

Des echantillons de sol ont ete collectes a partir de la couche 
5 superficielle de 5 a 10 cm de profondeur. Toutes les racines visibles ont 
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ete eliminees et les sols ont ete conserves a 4°C pendant quelques jours 
si necessaire, apres quoi ils ont ete seches pendant 24 heures a la 
temperature ambiante et tamises (taille moyenne de maille 2 mm) avant 
d'etre conserves jusqu'a plusieurs mois a 4°C. 

5 

1.2 SOUCHES BACTERIENNES ET CONDITIONS DE CULTURE: 

L'ADN extracellulaire ainsi que les souches bacteriennes fournissant des 
cellules vegetatives, des spores ou des hyphae, utilisees pour innoculer 
les echanttllons de sol, ont ete choisies de telle sorte que leur presence 

10 puisse etre suivie specifiquement. 

Afin d'obtenir de grandes quantites d'ADN extracellulaire, la 
souche lysogenique de E.coli 1192 Hfr P4X (metB), contenant le phage 
lambda CI857 Sam7, a ete cultivee sur milieu Luria-Bertani (LB) pendant 
deux heures a 30°C, puis 30 minutes a 40°C, puis 3 heures a 37°C. 

15 L'ADN du phage lambda a ete extrait selon la technique decrite par 
SAMBROOK J. et al. (1989) Molecular Cloning: A Laboratory Manual, 
2nd, ed. Cold Spring Harbor Laboratory, Cold Spring Harbor N.Y. 

La souche avirulente de Bacillus anthracis (STERNE 7700) a 
ete utilisee comme inoculum de cellules bacteriennes. Bacillus anthracis 

20 a ete multiplie sur un bouillon de culture de type " trypticase soy broth " 
(TSB) (Biomerieux, Lyon, France) pendant environ 6 heures, en verifiant 
que la DOeoo soit maintenue en dessous de 0,6. Ces conditions 
permettent le developpement des cellules vegetatives sans formation de 
spores (Patra et al., (1996), FEMS Immunol. Medical Microbiology, 

25 vol. 15:223-231.). Les spores de Streptomyces lividans OS48.3 (CLERC- 
BARDIN et al. non publie) ont ete eliminees mecaniquement des 
cultures de I'organisme sur un milieu R2YE (HOPWOOD et al., (1985), 
Genetic Manipulation of Streptomyces-A Laboratory Manual. The John 
Innes Foundation , Norwich .United Kingdom). Les hyphae de S. lividans 

30 OS48.3 ont ete obtenus a partir des spores en pre-germination, car I'on 
s'attendait a ce que I'utilisation de hyphae courtes minimise la rupture et 
la perte subsequente d'ADN. Les spores ont ete mises en suspension 
dans du tampon TES (Acide N-Tris [hydroxymethyl]methyl-2- 
aminoethanesulfonique ; Sigma-Aldrich Chimie, France) (0.05M; pH 8) 

35 (Holben WE et al., (1988), APPL. Environ. Microbiol. vol.54:703-711, 
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puis ont ete soumises a un choc thermique (50°C pendant 10 minutes 
suivi d'un refroidissement sous un courant d'eau froide puis ajoutees a 
un volume egal de milieu de pre-germination (extrait de levure 1%, 
casaminoacides 1% CaCI 2 0,01 M). 

La solution a ete incubee a 37°C sur un agitateur. La proportion 
de spores germees a ete estimee a environ 50%, en accord avec les 
resultats de HOPWOOD et al. (1985). Apres centrifugation, les culots ont 
ete resuspendus dans du tampon TES, ajoutes a 3% de milieu TSB, et 
incubes a 37°C jusqu'a I'obtention d'une DO 450 de 0,15 (HOPWOOD et 
al. , (1985)). Streptomyces hygroscopicus SWN 736 et 
Streptosporangium fragile AC1296 (Institute Pushino, Moscou) ont ete 
cultives selon des techniques decrites par HICKEY et TRESNER (1952). 

L'ADN des spores et des hyphae de S. Lividans a ete extrait a 
partir des cultures pures selon le protocole de lyse 6 decrit ci-dessous 
(excepte qu'aucun broyage n'a ete realise), tandis que les spores de S. 
hygroscopicus et de S. fragile ont ete extraites par lyse 
chimique/enzymatique (Hintermann et al., 1981). 

1.3 CHOIX DU TAMPON D'EXTRACTION: Un tampon TENP (50 mM 
Tris, 20 mM EDTA, 100 mM NaCI, 1% pds/vol de 
polyvinylpolypyrrolidone developpe par PICARD (1992) a ete utilise. Des 
tampons similaires ont ete ulterieurement utilises par d'autres auteurs 
(CLEGG et al., 1997; KUSKE et al., 1998; ZHOU et al., 1996). 

Le Tris et I'EDTA protegent I'ADN de I'activite nuclease, le NaCI 
apporte un effet dispersant et la PVPP absorbe les acides humiques et 
les autres composes phenoliques (HOLBEN et al. (1988); PICARD et al. 
(1992). 

Dans cette etude, I'efficacite d'extraction de ce tampon a ete 
evaluee a differents pH (6,0 - 10,0) en utilisant 20 sols differents ayant 
une gamme de pH de 5,8 a 8,3 et une teneur en matiere organique entre 
0,2 et 6,3%. Ces vingt sols (les autres caracteristiques ne sont pas 
indiquees) ont ete utilises uniquement dans cette experience. La quantite 
d'ADN a ete determinee de maniere colorimetrique comme decrit par 
RICHARD (1974), et detaille ci-apres. 
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1.4 PROTOCOLE DE LYSE IN SITU ET D'EXTRACTION D'ADN: 

Plusieurs protocoles utilisant un nombre croissant d'etapes ont ete 
testes afin d'evaluer I'efficacite de differentes techniques pour lyser les 
microbes du sol in situ. Pour ces experiences, la microflora indigene du 
5 sol a 6te ciblee dans six sols. Des experiences additionnelles ont ete 
conduites afin d'etudier les effets des traitements de lyse sur I'ADN 
libere, en analysant les quantites et la qualite d'ADN recupere provenant 
d'un ADN de phage lambda prealablement additionne aux sols. 

Une fois qu'un protocole optimise (designe protocole 6) a ete 
10 developpe, ce protocole a ete utilise pour quantifier I'ADN provenant 
d'Actinomycetes indigenes et d'ADN provenant de bacteries Gram- 
positives inocul6es dans les sols selectionn6s. Dans tous les cas, les 
echantillons de sol ont ete seches et passes au tamis comme decrit ci- 
dessus. 

15 Apres broyage, 0,5 ml de tampon TENP ont ete ajoutes a 200 

mg poids sec de sol excepte pour le protocole 1 dans lequel le tampon a 
ete ajoute a un sol non broye). 

Pour les divers traitements de lyse (voir ci-dessous), les 
suspensions de sol ont ete passees au Vortex pendant dix minutes et 

20 centrifugees (4000 g pendant cinq minutes), apres quoi une fraction 
aliquote (25 pi) du surnageant a <§te analysee par electrophorese sur gel 
(0,8% d'agarose). 

Une autre fraction aliquote du surnageant representant un 
volume connu, generalement 350 pi, a ete precipitee avec de 

25 I'isopropanol. 

Cinq fractions aliquotes (representant de I'ADN derive de 1 g de 
sol) ont ete reunies et resuspendues dans 100 pi d'un tampon TE sterile 
(10 mM Tris, 1 mM EDTA, pH 8,0) avant purification (protocole D, voir ci- 
dessous) et quantification, soit par hybridation (Dot Blot) de I'ADN total, 

30 soit par hybridation (Dot Blot) des produits d'amplification PCR (voir ci- 
dessous). 

Les signaux d'hybridation ont ete quantifies par imagerie par 
phosphorescence (technique de " phospho-imaging " voir ci-dessous). 
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1.5 EVALUATION DES METHODES DE LYSE CELLULAIRE IN SITU: 
La qualite et la quantite de I'ADN extrait apres un nombre croissant 
d'etapes de traitement de lyse (protocole 2-5b) ont ete comparees a 
celles de I'ADN extracellulaire obtenu apres lavage du sol avec un 
5 tampon d'extraction (protocole 1; voir aussi figure 1). 

Protocole 1 : Pas de traitement de Ivse. 

Le tampon TENP a ete ajoute a un sol non broye, une etape 
10 d'extraction d'ADN a ete realisee comme decrit ci-dessus. 

Protocole 2. Brovaqe du sol suivi d'une extraction d'ADN. 

Deux types de dispositifs differents ont ete utilises pour le 
15 broyage du sol. 

Afin de comparer leur efficacite respective, 5g de sol sec ont 
ete broyes pendant 30 secondes dans un broyeur contenant des 
anneaux de tungstene, ou pendant des temps varies jusqu'a 60 minutes 
dans un broyeur de sol contenant un mortier et des billes en agate (20 
20 mm de diametre). 

Le tampon TENP est ensuite ajoute et I'ADN est extrait comme 
decrit ci-dessus. 

Les resultats d'electrophorese sur gel ont montre qu'un broyage 
de 40 minutes en utilisant des billes en agate etaient necessaires afin 
25 d'obtenir des quantites d'ADN extraits equivalentes a celles obtenues 
apres 30 secondes de broyage en utilisant des anneaux de tungstene. 

La distribution de taille des fragments d'ADN est similaire quelle 
que soit la methode employee. 

Ainsi, ces traitements ont ete consideres comme equivalents et 
30 celui qui sera utilise dans les protocoles decrits ci-dessous ne sera en 
consequence pas specifie. 

Dans les protocoles 3 a 5, I'efficacite de plusieurs autres 
traitements de lyse ulterieure au broyage du sol a ete testee, soit 
separement, soit dans differentes combinaisons. 

35 
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Protocole 3 : 

Ce protocole est identique au protocole 2 , sauf qu'il comprend 
une etape d'homogeneisation a I'aide d'un mixeur de type Ultraturrax 
5 (Janker et Kunkel, IKA Labortechnik, Allemagne) regie a la moitie de la 
vitesse maximale pendant 5 minutes. 

PROTOCOLES 4a et 4b: 

io Ces protocoles sont identiques au protocole 3 a I'exception 

d'une etape additionnelle de sonication. 

Deux types de dispositifs sonicateurs ont ete compares : un 
sonicateur a micropointe de titane (600W Vibracell Ultrasonicator, 
Bioblock, lllkirch, France) (Protocole 4a) et un sonicateur de type Cup 
15 Horn (protocole 4b). 

La micropointe Vibracell produisant des ultrasons est en 
contact direct avec la solution de sol. 

En ce qui concerne le dispositif de type Cup Horn, la solution de 
sol est conservee dans des tubes qui sont places dans un bain d'eau a 
20 travers lequel passent les ultrasons. 

Des experiences preliminaires ont ete realisees afin de 
determiner les conditions optimales pour les deux sonicateurs (resultats 
non presentes). 

Le meilleur compromis, en terme de quantite d'ADN extrait et 
25 de taille de fragments, consiste en une sonication avec la micropointe de 
titane et le sonicateur de type Cup Horn respectivement pendant 7 et 10 
minutes, en reglant la puissance a 15 W et avec des cycles actifs a 50%. 

Protocoles 5a et 5b: 

30 

Apr6s sonication avec une micropointe de titane ou un dispositif 
de type Cup Horn (respectivement protocoles 4a et 4b) du lysozyme et 
de I'achromopeptidase ont ete ajoutes, chacune des enzymes £ une 
concentration finale de 0,3 mg/ml. 
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Les suspensions de sol ont ete incubees pendant 30 minutes a 
37°C, apres quoi du lauryl sulfate a une concentration finale de 1 % a 
ete ajoute, puis des suspensions ont ete incubees pendant 1 heure a 
60°C avant centrifugation et precipitation comme decrit ci-dessus. 
5 En plus des protocoles decrits ci-dessus, I'effet de la sonication 

(Cup Horn, voir protocole 4b) et de chocs thermiques (30 secondes dans 
I'azote liquide suivi de trois minutes dans I'eau bouillante, les traitements 
etant repetes trois fois ) sur TADN de phage lambda digere par Hindlll 
prealablement ajoute au sol ont 6te examines (voir ci-apr6s). 
10 Des chocs thermiques ont ete suggeres dans I'etat de la 

technique comme des moyens de lyse cellulaire in situ (PICARD et al. 
(1992)).. Cependant, du fait qu'un tel traitement a un effet 

prejudiciable sur I'ADN libre (voir la section resultats) il n'a pas ete inclus 
dans les protocoles decrits ci-dessus. 

15 

PROTOCOLE OPTIMISE 

Apres evaluation des differents traitements de lyse, un 
protocole optimise a ete defini, designe protocole 6 . Le protocole 6 est 

20 identique au protocole 5b excepte que, avant la sonication, les 
suspensions de sol sont soumises a un traitement par Vortex puis 
agitees par rotation sur une roue pendant deux heures avant d'etre 
congelees a - 20°C. 

Apres decongelation, les suspensions de sol sont passees au 

25 Vortex pendant 10 minutes avant sonication. Le protocole 6 a ete utilise 
dans les experiences dans lesquelles les sols ont ete ensemences avec 
des cellules bacteriennes ainsi que dans les experiences dans lesquelles 
les actinomycetes indigenes ont ete quantifies (voir ci-dessous). 

30 1.6 COMPTAGE AU MICROSCOPE: L efficacite du broyage du 

sol comme methode pour lyserdes cellules bacteriennes a ete examinee 
au microscope. 

5g de sol brut seche ont ete melanges dans un dispositif de 
type Waring Blender avec 50 ml d'eau sterilisee ultrapure pendant 1,5 
35 minutes; simultanement, 1g (poids sec) de sol broye (protocole n°2) a 



MSDOCID: <WO 0140497A2J_> 



WO 01/40497 



67 



PCT/FR00/03311 



ete mis en suspension dans 10 ml par agitation pendant 10 minutes. Les 
suspensions de sol ont fait I'objet de dilutions en series et de I'acridine 
orange a ete ajoutee a une concentration finale de 0,001%. 

Apres 2 minutes, les suspensions ont ete filtrees a travers une 
5 membrane de marque NUCLEOPORE de type 0,2 pm black. Chaque 
filtre a ete ringe avec de I'eau sterile lysee, traitee avec 1 ml 
d'isopropanol pendant 1 minute afin de fixer les cellules bacteriennes, 
puis rince de nouveau. 

Les cellules bacteriennes ont ete comptees a I'aide d'un 
10 microscope a epifluorescence du type Zeiss Universal avec un objectif 
100x. Pour chacun des types de sol, trois filtres ont ete comptes, et au 
moins 200 cellules ont et6 comptees sur chacun des filtres. 

1.7 NUMERATION DES ACTINOMYCETES CULTIVABLES ET 
15 NOMBRE TOTAL D'UNITES FORMANT COLONIES (CFU): Les 

actinomycetes ayant survecu aux traitements de lyse (protocoles 1-5) 
ont ete examines specifiquement avec le sol n°3 (Cote Saint Andre, voir 
tableau 1). 

Apres une dilution de 10 fois d'une solution d'extrait de levure 
20 (6% poids/volume) et de SDS (0,05%) afin d'induire la germination 
(Hayakawa et al. (1988)), les suspensions de sol ont ete diluees en 
series dans de I'eau sterile, incubees a 40°C pendant 20 minutes et 
ensemencees sur du milieu HV (HAYAKAWA et al., 1987). 

Le milieu HV a ete additionne de actidione (50 mg/l) et de 
25 nystatine (50 mg/ml). 

Les colonies d'actinomycetes ont ete comptees apres 
incubation pendant 15 jours a 28°C. 

Au total, environ 400 colonies ont ete examinees, 
^identification a ete realisee sur la base des caracteristiques 
30 morphologiques macro-et microscopiques ainsi que sur I'analyse de la 
teneur en acide diaminopimelique des isolats (SHIRLING et al., 1966); 
STANECK et al., 1974; WILLIAMS et al.,1993). 

La quantite totale de bacteries cultivates (CFU totales) a ete 
6galement determinee pour chacun des protocoles de lyse 13 5. Les 
35 suspensions de sol ont ete diluees en serie et ensemencees en triple sur 
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un milieu agar Bennett (WAKSMAN et al.. 1961) additionne de nystatine 
et d'actidione (chacune a 50 mg/l). 

Chaque boTte de Petri a ete couverte d'un filtre de nitrate de 
cellulose (Millipore) et incubee pendant trois jours a 28°C. Apres la 
5 numeration des colonies sur les membranes, les filtres ont ete retirees et 
les bottes de Petri ont et6 a nouveau incubees pendant 7 jours a 28°C 
puis comptees a nouveau. 

1.8 RECUPERATION DE L'ADN DE PHAGE LAMBDA AJOUTE AUX 
io SOLS: L'ADN de phage lambda a ete digere avec Hindlll, extrait par un 
melange de phenol-chloroforme, precipite puis resuspendu dans de I'eau 
sterile ultrapure selon des protocoles standard (SAMBROOK et 
al.,1989). 

Des dilutions correspondant respectivement a 0, 2,5, 5, 7,5, 10 
15 et 15 pg d'ADN/g de poids sec de sol ont ete preparees dans des 
volumes de 60 pi. Ces dilutions d'ADN ont ete ajoutees a des lots de 5g 
de sol sec qui ont 6te subsequemment vigoureusement melanges par 
vortex pendant 5 minutes avant broyage. 

L'ADN de phage lambda a aussi ete ajoute a un sol avant 
20 broyage a des concentrations correspondant a 0, 10 et 15 pg d'ADN/g 
de poids sec du sol. 

Apres broyage, le tampon d'extraction est ajoute et I'ADN est 
extrait selon le protocole 2(voir ci-dessus). 

25 1.9 SATURATION DES SITES D'ADSORPTION AVEC DE L'ARN: Afin 
de determiner si la saturation des sites d'adsorption d'acides nucleiques 
des colloides du sol pouvait augmenter le taux de recuperation de I'ADN, 
le terreau sablonneux (sol n°4) et le sol argileux (sol n°5) ont ete 
incubes avec une solution d'ARN avant tout autre traitement. 

30 De I'ARN commercial de Saccharomyces cerevisiae 

(BOHRINGER MANNHEIM, MEYLAN, France) a ete dilue dans du 
tampon phosphate (pH 7,1) et ajoute aux echantillons de sol sec et 
tamises (2 ml/g de sol) a des concentrations finales de 20, 50 et 100 mg 
d'ARN/g de poids sec du sol. 
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Les tubes contenant les suspensions de sol ont ete agites par 
rotation pendant deux heures a temperature ambiante. Apres 
centrifugation, les culots de sol ont ete sech6s au four (50°C) pendant la 
nuit. L'ADN de phage lambda a ensuite ete ajoute aux sols (0, 20 ou 50 
5 pg/g de poids sec du sol) afin de simuler le sort de I'ADN libere apres 
lyse cellulaire. 

L'ADN a ete extrait selon le protocole n°2. II a ete determine par 
la suite qu'un effet identique de I'addition d'ARN sur la recuperation 
d'ADN pouvait etre atteint en ajoutant TARN directement au tampon 
10 d'extraction. 

Cette procedure simplifiee a §te utilis6e pour le sol argileux n°5 
dans les experiences dans lesquelles les micro-organismes ont et§ 
inocules dans les sols. 

L'ARN a ensuite ete ajoute a une concentration correspondant 
15 a 50 mg d'ARN/g de poids sec du sol. 

1.10 DETERMINATION QUALITATIVE ET QUANTITATIVE DE 
L'EFFICACITE DES PROTOCOLES D'EXTRACTION : La qualite de 
I'ADN (absence de degradation) a ete estimee sur la base de la taille des 

20 fragments d'ADN ou de la position relative des bandes de migration 
d'ADN apres electrophorese d'une fraction aliquote d'une solution d'ADN 
sur un gel d'agarose a 0,8%. 

L'intensite de fluorescence a permis une estimation semi- 
quantitative des rendements d'extraction. 

25 Une autre fraction aliquote a ete utilisee pour des 

determinations quantitatives de la teneur en ADN par hybridation (Dot 
Blot) et analyse au phospho-lmager. Le protocole d'hybridation sur tache 
a ete decrit par SIMONET et al. (1990). 

Les membranes d'hybridation (GeneScreen plus, Life Science 

30 Products, Boston, Etats-Unis d'Amerique) ont ete prehybridees pendant 
au moins 2 heures dans 20 ml d'une solution contenant 6 ml de 20 x 
SSC, 1 ml de solution de DENHARDT's, 1 ml de SDS & 10% et 5 mg 
d'ADN de sperme de saumon. 

L'hybridation a ete realisee pendant une nuit dans la meme 

35 solution en presence d'une sonde marquee prealablement a deux 
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lavages des membranes dans un tampon SSC 2 x pendant 5 minutes a 
temperature ambiante, puis un troisieme lavage dans du tampon SSC 2 
x, SDS 0,1% et un quatrieme lavage dans du tampon SSC 1 x, SDS 
0,1% pendant 30 minutes a la temperature d'hybridation. 
5 Les signaux d'hybridation ont ete quantifies avec un systeme 

d'imagerie radioanalytique BIORAD (Molecular Analyst Software, 
BIORAD, Ivry S/Seine, France). 

Afin de quantifier la quantite totale d'ADN derivee de la 
microflore indigene, les differents sols ont ete extraits selon les 
10 protocoles n°1 a 5. L'ADN non amplifie a ete applique sur les 
membranes de Dot Blot et hybride en utilisant la sonde universelle 
FGPS431 (tableau 2). 

Cette sonde, qui hybride aux positions 1392-1406 du gene de 
I'ADNr 16S de E.coli (Amann et al. (1995)) a ete marquee a ses 
15 extremites avec un ATPa 32 P en utilisant une polynucleotide kinase 
T4(BOEHRINGER MANNHEIM, Melan, France). 

Une courbe de calibration a ete preparee a partir de I'ADN de 
E.coli DH5a. La conversion des calculs aux bacteries du sol a necessite 
une simplification, partant de I'hypothese que le nombre de copies 
20 moyen (rrn) est de 7, comme pour E.coli. 

L'ADN de phage lambda digere par Hindi II a ete utilise pour 
quantifier la recuperation de I'ADN extracellulaire. Des extraits non 
amplifies a partir de sols, auxquels de I'ADN de phage lambda avait ete 
ajoute, ont ete hybrides avec de I'ADN de phage lambda digere par 
25 Hindlll marque au hasard en utilisant le fragment Klenow (BSehringer 
Mannheim, Melan, France). 

Les quantites d'ADN ont ete calculees par interpolation a partir 
d'une courbe de calibration preparee avec I'ADN purifie. 

La quantite totale d'ADN extrait a partir des sols n°1, 2, 3, 4 et 6 
30 selon le protocole n°2 (broyage) a egalement ete quantifiee de maniere 
colorimetrique selon la technique decrite par RICHARD (1974). 

Brievement, de I'ADN a ete melange avec du HCI0 4 concentre 
(la concentration finale de HCI0 4 etait de 1,5 N). On a melange 2,5 
volumes de cette solution avec 1,5 volumes de DPA (diphenylamine, 
35 Sigma-Aldrich, France) et laisse incuber le melange a la temperature 
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ambiante pendant 18 heures. prealablement a la determination de la DO 
a 600 nn. Les extraits d'ADN du sol ont ete quantifies par rapport a une 
courbe standard realisee par I'ADN extrait a partir de E.coli DH5a selon 
les protocoles standards (SAMBROOK et al., (1989)). 

5 

1.11 DEVELOPPEMENT D'UNE TECHNIQUE DE QUANTIFICATION 
D'ADN EN UTILISANT L'AMPLIFICATION PCR ET L'HYBRIDATION: 

Pour les amplifications par PCR, de I'ADN polymerase Taq (Appligene 
Oncor, France) a ete utilise selon les instructions du fabricant. 

io Le programme PCR utilise pour toutes les amplifications est le 

suivant: denaturation initiale pendant 3 minutes a 95°C, puis 35 cycles 
consistant en 1 minute a 95°C, 1 minute a 55°C et 1 minute a 72°C, 
suivie par une extension finale a 72°C pendant 3 minutes. 

L'ADN isole et purifie a partir de Streptosporangium fragile a ete 

15 utilise comme temoin a des concentrations allant de 100 fg a 100 ng. 

Afin d'amplifier specifiquement I'ADN de ce genre bacterien, on 
a choisi les amorces FGPS122 et FGPS350 (tableau 2), 
complementaires a une partie de I'ADNr 16S, apres alignement des 
sequences d'ADNr 16S d'actynomycetes. Leur specificite a ete testee 

20 sur une collection de souches d'actynomycetes (Streptomyces, 
Streptosporangium et d'autres genres fortement apparentes). 

Les produits de PCR ont ete hybrides avec la sonde 
oligonucleotidique FGPS643 (tableau 2). Afin de simuler le niveau de 
purete obtenu en routine avec de I'ADN extrait a partir du sol, des 

25 temoins d'ADN pur de S. fragile ont ete melanges avec les extraits de sol 
obtenus apres des traitements selon les protocoles de lyse 4b et 5b puis 
purifies selon le protocole D. 

Avant utilisation, les extraits de sol ont ete traites avec de la 
DNase (une unite de DNase/ml, GIBCO BRL) pendant 30 minutes a 

30 temperature ambiante. La DNase a ensuite ete inactivee par chauffage a 
65°C pendant 10 minutes. Une verification de I'inactivation a ete realisee 
par PCR. Les concentrations d'acides humiques ont ete mesurees par 
spectrophotometrie (D0 2 eonm) contre une courbe standard d'acides 
humiques commerciaux (Sigma). 
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Des solutions de sol traitees a la Dnase non diluees, diluees 
10x et diluees x 100 ont ete melangees de 100. fg a 100ng d'ADN de S. 
fragile avant I'amplification par PCR. Dans une autre serie 
d'experiences, les concentrations croissantes d'ADN de Streptomyces 
5 hygroscopicus de (100 pg a 1 ug) ont ete ajoutees a I'ADN de S. fragile 
afin de simuler la presence d'ADN non-cible et son influence sur le 
procede PCR. 

1.12 PURIFICATION DES EXTRAITS D'ADN BRUT: Quatre methodes 
io de purification d'ADN ont ete comparees. L'ADN a ete extrait a partir de 
1 g (poids sec de sol selon le protocole 4a et remis en suspension dans 
100 pi de tampon TE8 (50 mM Tris, 20 mM (EDTA, pH 8,0). 

Protocole A 

15 

Elution a travers deux colonnes successives Elutip d 
(SCHLEICHER et SCHUELL, Dassel, Allemagne) (PICARD et al., 
(1992)). 

20 Protocole B: 

Elution a travers une colonne SEPHACRYL S200 (Pharmacia 
Biotech, Uppsala, Suede) suivie d'une elution a travers une colonne 
Elutip d (NESME et al. (1995)). 

25 

Protocole C: 

Separation a I'aide d'un systeme aqueux a deux phases avec 
17,9% (poids/poids) de PEG 8000 (Merck, Darmstadt, Allemagne) et 
30 14,3% (poids/poids) de (NH 4 )2S0 4 (ZASLAVSKY,(1995)). 

Apres un melange vigoureux au vortex, les deux phases ont ete 
laissees a temperature ambiante pour leur separation. 

1 ml de chacune des phases a ete transfere dans un autre 
tube, melange avec 100pl de I'echantillon et laisse a 4°C pendant une 
35 nuit pour permettre la separation. 
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La phase inferieure a ete dialysee pendant une heure a travers 
une membrane Millipore en presence d'un exces d'un tampon TE 7,5 (10 
mM Tris, 1 mM EDTA a pH 7,5 et 1 M Mg Cl 2 ) afin d'eliminer les sels en 
exces. 

5 

Protocole D: 

Elution a travers une colonne de type Microspin Sephacryl 
S400 HR (Pharmacia Biotech, Uppsala, Suede) , suivie d'une elution a 
10 travers une colonne de type Elutip d. 

Chaque protocole est termine par une etape de precipitation a 
I'ethanol, et I'ADN est remis en suspension dans 10 pi de tampon TE 
7,5. L'efficacite des protocoles de purification a ete verifiee par 
amplification PCR de fractions aliquotes non diluees des solutions d'ADN 
is et de fractions aliquotes diluees 10 et x 100 fois, en utilisant des 
protocoles standard (voir ci-dessous). 

1.13 RECUPERATION DE L'ADN A PARTIR DE MICROORGANISMES 
INNOCULES: 

20 Les cellules, spores et hyphae ont ete lavees deux fois et denombrees 
par comptage sur plaque ou comptage microscopique direct. Des lots de 
5g de sol sec et tamise (sols n°2, 3 et 5) ont ete inocules avec 100 pi 
d'une suspension de spores et d'hyphae de S. lividans a des 
concentrations correspondent a 0,10 3 , 10 5 , 10 7 et 10 9 spores/g de poids 

25 sec de sol, ou avec des cellules vegetatives de B.anthracis a des 
concentrations correspondant a 0,1 0 7 et 10 9 cellules par gramme de 
poids sec du sol. 

Les quantites de hyphae de S. lividans ont ete calculees sur la 
base du nombre de spores desquelles elles sont originaires. Apres 

30 addition des suspensions bacteriennes, les echantillons de sol sont 
melanges vigoureusement par vortex pendant 5 minutes avant broyage. 
L'ADN est extrait selon le protocole n°6 (voir ci-dessous). 

Uamplification PCR suivie d'une hybridation sur tache (Dot Blot) 
et imagerie par phosphorescence (phospho-imaging) a ete utilisee afin 
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de quantifier les quantites d'ADN recuperees a partir des cellules, des 
spores et du mycelium bacterien inocule dans les sols. 

L'extraction d'ADN a ete realisee selon le protocole de lyse n°6. 
[.'amplification PCR et I'hybridation ont ete realisees comme decrit ci- 
5 dessus. Les amorces et les sondes sont ciblees sur des regions 
chromosomiques localisees en dehors de la region 16S, et sont 
hautement sp6cifiques des organismes respectifs, de maniere a eviter 
des signaux de bruit de fond. 

Pour les sols ensemences avec B. anthracis, les amorces R499 
10 et R500 ont ete utilisees (Patra et al. (1996)) et les produits 
d'amplification ont ete hybrides avec la sonde oligonucleotidique C501 
(tableau 2). 

Pour les sols ensemences avec S. lividans , les reactions PCR 
ont ete realisees en utilisant les amorces FGPS516 et FGPS517, et les 
15 produits d'amplification ont ete hybrides avec la sonde oligonucleotidique 
FGPS518 (tableau 2). 

La region amplifiee est une partie de la cassette construite 
specifiquement pour obtenir la souche OS48.3 (CLERC-BARDIN et al., 
non publie). 

20 Les comptes de calibration ont ete dans tous les cas obtenus 

en utilisant I'ADN purifie de Torganisme cible. 

2. RESULTATS 

25 2.1 CHOIX DU TAMPON D'EXTRACTION: 

20 sols differents ont ete utilises afin de determiner le pH optimal du 
tampon d'extraction d'ADN. Pour tous les sols, le rendement en ADN 
augmente avec les pH croissants du tampon. Le rendement pour chaque 
30 pH (+/- sd), calcule comme le pourcentage de la valeur la plus haute 
pour chacun des sols, est le suivant: pH 6,0 : 31 +/- 13; pH 7,0: 43 +/- 
16; pH 8,0: 60 +/- 14; pH 9,0: 82 +/- 12; pH 10,0: 98 +/- 3. 

Pour 16 des 20 sols, le rendement le plus eleve a ete obtenu & 
35 pH 10,0, alors que pour les quatre autres sols le plus haut rendement a 
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ete obtenu a pH 9,0. Cependant, a pH 10,0, des quantites plus grandes 
de materiel humique ont ete liberees, comparees a pH 9,0 (resultats non 
presentes). En consequence, le pH 9,0 a ete choisi pour toutes les 
experiences presentees ci-dessous. 

5 

2.2 EFFICACITE DES PROTOCOLES D'EXTRACTION D'ADN: 

L'ADN total des organismes indigenes du sol a ete extrait et quantifie de 
maniere a evaluer I'efficacite de nombreux protocoles de lyse cellulaire 
10 in situ. Des 6chantillons des sols 1-6 (tableau 1) ont ete traites selon les 
protocoles n°1 a 5 decrits dans la section Materiel et Methodes (figure 

1). 

Apres I'extraction d'ADN, les suspensions de sols ont ete 
precipitees avec de I'isopropanol, et des fractions aliquotes des culots 
is remis en suspension ont ete analysees par electrophorese sur gel , dans 
une premiere etape, afin d'estimer la qualite et la quantite de I'ADN 
libere. 

Cependant, la couleur de I'extrait d'ADN devenait de plus en 
plus sombre au fur et a mesure du nombre croissant d'etapes de lyse, 
20 du fait de la co-extraction de composes, tels que les acides humiques, 
avec I'ADN. 

Certains de ces extraits bruts de couleur sombre ne migrent 
pas de la maniere attendue dans les gels d'agarose. 

En consequence, les solutions d'ADN brut ont ete purifiees 
25 (protocole B) avant quantification. Les electrophoreses sur gel des 
solutions purifiees obtenues apres les differents traitements de lyse sont 
exemplifies sur le sol n°3 (figure 2). 

Une comparaison visuelle au rayonnement ultra-violet des 
intensites de I'ADN colore a permis une estimation semi-quantitative de 
30 Tefficacite des traitements. De plus, la presence de profils de migration 
de tailles multiples de fragments (bandes discretes) d'ADN et la 
disparition des fragments longs indique qu'une degradation de I'ADN a 
eu lieu. 

Aucun ADN n'a pu etre extrait du sol argileux n°5. 
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Une quantification plus precise de I'ADN de tous les sols, extrait 
selon les protocoles n°1 a 5, a ete realisee par hybridation sur tache (Dot 
Blot) sans etape d'amplification PCR prealable et en utilisant une sonde 
oligonucleotidique compl6mentaire d'une sequence hautement 
5 conservee de la region d'ADNr 16S (sonde FGPS 431 , tableau 2). 

L'ADN a ete detecte dans les extraits de tous les sols apres 
chacune des differentes etapes de lyse, a I'exception du sol argileux n°5. 

Les resultats concordent avec les estimations realisees apres 
gel d'electrophorese. 
10 Afin de comparer avec une methode independante pour la 

quantification, I'ADN extrait selon le protocole n°2 (tous les sols sauf le 
sol n°5) a 6te egalement quantifie en utilisant une m§thode 
colorimetrique de detection de I'ADN (RICHARD, 1974). 

On a trouve une bonne correlation (r = 0,88) entre I'ADN 
is quantifie en utilisant cette technique colorimetrique et les resultats 
obtenus par hybridation de type Dot Blot/radio-imagerie, confirmant 
I'hypothese selon laquelle le nombre de copies moyen des bacteries du 
sol (rrn) est de 7. 

L'hybridation (Dot Blot) a montre que les quantites d'ADN 
20 extracellulaires, comme determine par extraction sans traitement de lyse 
(protocole n°1), allait de 4pg/g pour le sol acide (n°6) a 36 pg/g pour le 
sol n°3 (tableau 3). 

Le broyage du sol (protocole n°2 ) a augmente les quantites 
d'ADN extrait a partir de tous les sols (p. ex. 26 pg/g de sol) pour le sol 
25 n°6 et 59 pg/g de sol (pour le sol n°3) (tableau 3; figure 2). 

Pour les deux traitements de broyage (voir la section Materiel et 
Methodes) la migration discrete d'ADN a ete detectee sur les gels 
d'agarose, indiquant que les molecules d'ADN ont §te partiellement 
degradees (figure 2). 
30 La taille des fragments d'ADN est comprise entre 20 et 0,2 kb. 

L'intensite de bande des fragments les plus petits est tres faible, 
indiquant que la majeure partie des fragments ont une taille bien 
superieure a 1 kb. 

Le protocole n°3 comprend une 6tape d'homogen6isation dans 
35 un dispositif mixeur de type Ultraturax apres I'addition du tampon 
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dextraction aux echantillons de sol. Cette etape conduit a une 
augmentation des quantites d'ADN extrait, comme determine par 
hybridation sur tache (Dot Blot) pour deux des sols (le terreau 
sablonneux n°3 et le sol acide n°6), alors que les deux sols riches en 
5 matiere organique (sols n°1 et n°2) ont conduit d I'obtention de quantites 
plus faibles d'ADN. 

Les protocoles n°4a et n°4b ont permis d'evaluer Tinfluence de 
deux types de sonication sur les rendements en ADN a partir de sols 
prealablement broyes et homogeneis6s . 

io La sonication n'a pas eu d'effet positif sur le rendement en 

ADN, compare au protocole n°3, excepts pour le sol n°6. Toutefois, 
I'efficacite de lyse des deux types de sonicateur different. Pour les sols 
n°2, 3 et 4, les quantites d'ADN extraits les plus grandes ont 6te 
obtenues en utilisant la micropointe de titane (tableau 3; figure 2), alors 

is que pour les sols n°1 et n°6, le rendement en ADN etait superieur en 
utilisant le dispositif Cup Horn. 

Des resultats contradictoires ont ete 6galement obtenus lorsque 
Ton a ajoute une etape de lyse enzymatique/chimique (protocoles n°5a 
et 5b) apres I'etape de sonication: dans certains cas, les quantites 

20 d'ADN extraites ont ete plus grandes que celles recuperees selon les 
protocoles n°4a et 4b, alors que dans d'autres cas les rendements 
etaient moindres (tableau 3). 

2.3 COMPTAGE DIRECT DES MICRO-ORGANISMES: 

25 

Des comptes au microscope du nombre total de cellules bacteriennes 
apres coloration a I'acridine orange ont ete realises pour tous les sols, 
avant et apres broyage. 

Avant broyage, le nombre de bacteries par gramme de poids 
30 sec du sol allait de 1,4 x 10 9 (+/- 0,4) dans le sol tropical n°5 a 10 x 10 9 
(+/- 0,7) dans le sol provenant de la Cote Saint-Andre (sol n°3) (tableau 
1). 

Apres broyage, les nombres de cellules ont ete respectivement 
de 45, 74, 75, 54, 34 et 75% des valeurs initiates pour les sols n°1 a 6. 

35 
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2.4 NUMERATION DES ACTINOMYCETES CULTIVABLES 
APPARTENANT A DIFFERENTS GENRES: 

Une modification dans les populations d'actinomycetes dans le sol n°3 a 
5 ete remarquee apres les differents traitements de lyse (figure 3). 

Par exemple, les colonies de Streptomyces sp. dominaient la 
flore viable d'actinomycetes lorsqu'aucun traitement de lyse n'est 
applique (protocole n°1), et representaient 65% du nombre total de 
colonies identifiees. Apres broyage, le pourcentage de colonies de 
10 Streptomyces a diminue pour atteindre 51%, alors que la proportion de 
colonies appartenant au genre Micromonospora a augmente de 14% a 
41%. 

La lyse chimique/enzymatique (protocoles 5a et 5b) est 
apparue comme particulierement efficace pour la lyse des 

15 streptomycetes. Lorsque tous les traitements de lyse ont §te appliques, y 
compris une lyse chimique/enzymatique (protocoles 5a et 5b), la 
microflore d'actinomycetes, qui comprenait encore plus de 10 6 CFU/g de 
sol, etait dominee par les especes appartenant au genre 
Micromonospora, alors qu'aucune ou tres peu de colonies de 

20 Streptomyces ont ete recuperees. 

Les organismes appartenant aux genres tels que 
Streptosporangium, Actinomadura, Microbispora, Dactilosporangium et 
Actinoplanes sont apparus sur les plaques en faible nombre (2-8% du 
nombre total de colonies identifiees) apres broyage, homog6neisation 

25 avec le dispositif Ultraturrax, et sonication, mais etaient generalement 
absents lorsque ces traitements 6taient combines avec une lyse 
chimique/enzymatique. 

Le nombre total de bacteries cultivates restant apr§s chaque 
traitement de lyse (protocoles 2 a 5) a ete aussi recherche pour le sol 

30 n°4. Les resultats indiquent que le nombre de bacteries cultivates ne 
decroit pas avec Tintensite des traitements de lyse (environ 2 x 10 6 
CFU/g de sol dans tous les cas, et 6galement lorsqu'un traitement n'est 
applique, tel que selon le protocole n°1). 

L'obtention de ces faibles valeurs de CFU est probablement 

35 due au fait que du sol sec a ete utilise et que seules les bacteries les 
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plus resistantes se sont multiplies sur les plaques. Le nombre 
d'actinomycetes formant colonies etait generalement plus grand que 
celui des CFU total (toutes les bacteries) du fait qu'une etape de 
germination de spores, comprise dans le protocole de detection des 
5 actynomycetes, manquait lors du controle des bacteries totales. 

2.5 RECUPERATION DE L'ADN DU PHAGE LAMBDA AJOUTE: 

Le but de ces experiences etait d'estimer de quelle maniere des 
10 traitements de lyse successifs pouvaient affecter la recuperation d'ADN 
nu , et si ces traitements successifs de lyse contribuaient a sa 
degradation. 

L'ADN pouvait etre soit une fraction d'ADN extracellulaire 
liberee a partir d'organismes deja morts, qui peuvent persister dans le 

15 sol pendant des mois (WARD et al., 1990), soit de I'ADN libere a partir 
d'organismes lyses facilement pendant les premieres etapes du 
traitement. Afin de simuler cette situation, de I'ADN de phage lambda 
digere par Hindlll a ete ajoute, a diverses concentrations, aux sols avant 
et apres broyage. En plus du broyage, une combinaison des autres 

20 traitements de lyse a ete testee, y compris la sonication (dispositif Cup 
Horn, voir protocole n°4b) et des chocs thermiques (voir la section 
Materiel et Methodes). 

Apres extraction, des fractions aliquotes qui devraient 
theoriquement contenir de 25 a 150 ng d'ADN de phage lambda ont 6te 

25 analysees par electrophorese sur gel. Aucun fragment d'ADN specifique 
du phage lambda n'a pu etre observe lorsque I'ADN a ete inocule dans 
les echantillons de sol prealablement au broyage, independamment de 
la dose ou du type de sol. 

Lorsque I'ADN a ete ajoute apres broyage, et extrait sans etape 

30 de traitement de lyse additionnelle, les profils specifiques d'ADN de 
phage lambda ont ete detectes dans les extraits de quatre des cinq sols 
testes. 

Dans tous ces cas, une relation directe de cause a effet a ete 
obtenue entre la quantite d'ADN ajoutee et I'intensite des signaux sur les 
35 gels d'agarose. Les intensites des signaux etaient, cependant, 
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inferieures aux intensity de signaux attendues si on les compare a 
celles des standards moleculaires. 

De plus, la bande a 23 kb etait absente dans plusieurs cas, 
indiquant que les longs fragments etaient preferentiellement adsorbes 
5 aux particules du sol, ou etaient plus sensibles a la degradation, 
compares aux fragments courts. 

Aucune bande n'a ete detectee dans les echantillons de sol 
tropical n°5 qui est caracterise par une tres haute teneur en argile 
(tableau 1). 

10 Pour une quantification plus precise, la recuperation d'ADN a 

ete determinee sur un dispositif d'imagerie par phosphorescence 
(phospho-imager) apres hybridation en tache (Dot Blot). Selon cette 
technique, I'ADN a ete detecte dans tous les echantillons, y compris 
ceux qui avaient ete inocules avant broyage, a I'exception du sol n°5 
15 dans lequel aucun ADN n'a pu etre detecte. 

Dans tous les autres sols, la quantite d'ADN extrait augmente 
avec ('augmentation de taille de I'inoculum (figures 4a-d). 

Cependant, les recuperations d'ADN de phage lambda etaient 
faibles. Lorsque le broyage etait le seul traitement de lyse applique, les 
20 recuperations etaient comprises entre 0,6 et 5,9% de I'ADN ajoute 
lorsque celui-ci etait ajoute avant broyage, et de 3,6 a 24% de I'ADN 
ajoute lorsque ce dernier etait ajoute apres broyage. Les plus hauts 
niveaux de recuperation ont ete obtenus a partir du sol n°2. 

L'electrophorese sur gel de fractions aliquotes d'echantillons 
25 traites par choc thermique et sonication n'a permis d'observer des 
bandes d'ADN dans aucun des echantillons, y compris I'essai dans 
lequel I'ADN avait ete ajoute apres broyage. Les experiences 
d'hybridation en tache (Dot Blot) ont confirme ces resultats. 

Les signaux d'hybridation obtenus a partir de suspensions de 
30 sol qui ont ete traitees par chocs thermiques et sonication ont ete, tout 
au plus, faibles. 

L'echantillon presentant la plus forte quantite d'ADN (15 ug 
d'ADN/g de poids sec du sol) etait le seul pour lequel le signal obtenu 
etait sensiblement different du niveau du bruit de fond. 
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Aucune difference^ ou de faibles differences) n'a ete observee 
entre les echantillons traites par choc thermique et ceux traites par chocs 
thermiques et sonication, indiquant que les chocs thermiques ont un 
effet prejudiciable sur I'ADN. Les recuperations les meilleures ont ete 
5 observees pour le sol n°2, qui a la plus forte teneur en matiere organique 
(tableau 1 ), alors qu'aucun ADN n'a ete recupere a partir du sol argileux 
n°5. 

Des experiences additionnelles ont ete realisees avec des 
echantillons non broyes de sols n°4 et n°5, qui ont ete ensemences avec 
10 20 et 50 ug d'ADN de phage lambda par gramme de sol. 

Les echantillons ont ete extraits immediatement ou apres une 
periode d'incubation d'une heure a 28°C, puis les extraits d'ADN ont ete 
purifies et analyses par electrophorese sur gel. 

L'incubation du sol n°4 pendant une heure apres I'inoculation 
is n'a pas conduit a des profils qualitativement ou quantitativement 
differents de ceux obtenus sans incubation ou de ceux observes 
anterieurement lorsque I'ADN avait ajoute apres broyage. 

Ces resultats indiquent que la degradation enzymatique par les 
nucleases du sol ne seraient pas impliquee dans le faible taux de 
20 recuperation d'ADN. De plus, I'absence d'etape de broyage ne permet 
pas une augmentation de la recuperation de I'ADN a partir du sol n°5, 
indiquant que les modifications de structure du sol dues au broyage 
n'augmentent pas significativement I'adsorption des acides nucleiques 
sur les colloides. 

25 

2.6 SATURATION DES SITES D'ADSORPTION AVEC L'ARN: 

La plupart des profils obtenus sur les gels d'agarose ne different pas 
significativement des profils precedents dans lesquels le traitement 
30 d'ARN n'a pas ete effectue. 

Par exemple, aucune bande n'a ete detectee a partir du sol 
riche en argile n°5, independamment des concentrations d'ARN et des 
concentrations d'ADN de phage lambda utilisees. 
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De plus, les bandes specifiques d'ADN de phage lambda 
digerees par Hindlll restaient indetectables dans le terreau sablonneux 
traite par TARN (sol n°4) lorsque TARN est ajoute avant le broyage. 

L'intensite des bandes obtenues a partir d'echantillons 
5 ensemences avec I'ADN apres broyage augmente avec la concentration 
d'ARN, indiquant que le traitement pourrait avoir un effet positif. 

Cependant, les resultats apres hybridation et analyse par 
imagerie a phosphorescence n'ont pas confirme les resultats de 
I'electrophorese. Par exemple, I'effet positif du traitement d'ARN sur la 
10 recuperation d'ADN a partir du terreau argileux, lorsque I'ADN a ete 
ajoute apres broyage, n'apparaTt pas clairement. 

D'un autre cote, un effet positif de I'ARN a ete trouve pour le sol 
riche en argile (n°5) lorsque I'ADN a ete ajoute apres broyage. 

Bien que les signaux d'hybridation pour les echantillons 
is controle ne different pas des niveaux de bruit de fond, des quantites 
significatives d'ADN ont ete liberees a partir des echantillons traites par 
I'ARN, et les signaux ont augmente avec la quantite d'ADN ajoutee ainsi 
qu'avec la concentration d'ARN. 

Cependant, meme pour la plus forte concentration d'ARN (100 
20 mg/g de poids de sol sec) le taux de recuperation n'a jamais depasse 
3%. 

2.7 PURIFICATION DES EXTRAITS BRUTS D'ADN: 

25 Des quatre protocoles testes, la meilleure amplification des extraits 
d'ADN non dilues (1 pi d'extrait dans 50 pi de melange PCR) a ete 
observee apres I'elution a travers des colonnes de type Microspin S400 
suivie d'une elution a travers une colonne de type Elutip d, comme le 
montre I'electrophorese sur gel des produits PCR. 

30 L'ADN purifie par le systeme aqueux double phase (protocole 

C) a donne des quantites plus faibles de produits PCR apres 
amplification a partir d'extrait d'ADN non dilue. 

Aucun produit d'amplification n'a pu etre obtenu a partir des 
extraits non dilues apres amplification a la suite de la mise en oeuvre 

35 des protocoles A ou B. En consequence, le protocole B (voir section 
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Materiels et Methodes) a ete utilise pour toutes les experiences dans 
lesquelles les amplifications PCR et/ou les hybridations sur tache (Dot 
Blot) ont ete realisees. 

5 2.8 QUANTIFICATION PAR PCR ET HYBRIDATION: 

La premiere etape etait de determiner si les quantites de produit PCR 
etaient proportionnelles au nombre de molecules d'ADN cibles 
initialement presentes dans le tube reactionnel. De I'ADN de 
10 Streptosporangium fragile a ete utilise comme cible (voir section 
Materiels et Methodes). 

Les amorces utilisees ont ete les amorces FGPS122 et 
FGPS350 (tableau 2). L'electrophorese sur gel des produits PCR a 
montre que I'intensite de bande augmente avec I'accroissement de la 
15 concentration des cibles. Les produits PCR ont ete hybrides avec la 
sonde oligonucleotidique FGPS643 (tableau 2), et les signaux ont ete 
quantifies par imagerie par phosphorescence (phospho-imaging). 

On a trouve une bonne correlation (r*= 0,98) entre le 
log[nombre de cibles] et le logpntensite du signal d'hybridation]. 
20 On a ensuite recherche si I'efficacite de ('amplification PCR etait 

affectee par les acides humiques et I'ADN non cible. Lorsqu'on I'analyse 
par electrophorese sur gel, I'intensite accrue des bandes des produits 
PCR, correspondant aux differentes quantites d'ADN cible, etait 
conservee lorsque ('amplification etait realisee avec des solutions d'ADN 
25 auxquelles on avait ajoute des extraits de sol traites a la DNase, 
contenant des acides humides a des concentrations allant jusqu'a 8ng 
dans le melange PCR d'un volume de 50 pi. 

Avec 20 ng d'acide humique dans le melange PCR, les bandes 
correspondant aux faibles niveaux d'ADN cible ont disparu, et a des 
30 concentrations d'acide humique de 80 ng et a des concentrations 
superieures, aucune bande n'etait visible . 

Les quantites variees d'ADN cible de S.fragile ont permis de 
fournir les quantites attendues de produit PCR lorsque, avant 
amplification, I'ADN de S. fragile a ete melange avec de I'ADN de 
35 Streptomyces hygroscopicus et ajoute au melange PCR de 50 pi dans 
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une gamme de 100 pg a 1ug afin de simuler I'ADN non-cible libera a 
partir de la microflore du sol. 

2.9 QUANTIFICATION DES ACTINOMYCETES INDIGENE DU SOL 
5 APRES DIFFERENTS TRAITEMENTS DE LYSE: 

On a applique le protocole de purification D suivi d'une amplification par 
PCR comme decrit ci-dessus afin de quantifier les actinomycetes 
appartenant au genre Streptosporangium dans le sol n°3 apres 
10 extraction conformement aux protocoles n°1 , 2, 3, 5a et 5b (figure 5). 

Apres broyage, (protocole n°2) la quantite d'ADN cible 
provenant de cet actinomycete a ete estimee par hybridation (Dot Blot) 
et radio-imagerie comme etant de 2,5 +/- 1 ,3 ng /g de poids de sol sec. 

Si Ton postule que le contenu en ADN est de 10 fg par cellule, 
15 comme pour Streptomyces (Gladek et al. 1984), cette valeur correspond 
a approximativement 2,5 x 10 5 genomes. Des valeurs similaires ont ete 
obtenues apr§s les autres traitements de lyse (respectivement 2,6 +/-1.1 
et 1,8 +/- 1,3 ng d'ADN/g de sol sec en utilisant respectivement les 
protocoles 3 et 4b). 

20 

2.10 EFFICACITE DE LA RECUPARATION D'ADN A PARTIR DE 
SOLS PREALABLEMENT INOCULES AVEC DES BACTERIES: 

Trois sols (n°2, 3 et 5) ont ete inocules avec des spores ou des hyphae 
25 de Streptomyces lividans a differentes concentrations (voir section 
Materiel et Methodes). Les quantites de mycelium ajoutees au sol (figure 
6b) correspondent au nombre de spores inoculees dans le milieu de 
germination. Approximativement 50% de ces spores ont germe. Le 
nombre exact de cellules dans les hyphae des spores germinees n'a pas 
30 ete determine. En consequence, les quantites de spores et de mycelium 
ensemencees dans les sols ne sont pas directement comparables. 

Pour chaque echantillon de sol, le protocole d'extraction n°6, la 
methode de purification D, et I'amplification PCR combinee avec 
I'hybridation sur tache (Dot Blot) et rimagerie par phosphorescence 
35 (phospho-imaging) ont ete utilises pour denombrer les ADNs cibles 
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specifiques qui avaient ete liberes. L'ADN extrait peut etre clairement 
distingue du bruit de fond seulement lorsque le nombre de spores 
ajoutees depasse 10 5 pour les sols n°3 et n°5 et 10 7 pour le sol n°2 
(figure 6a). 

Lorsque le mycelium est ajoute, I'ADN extrait peut etre detecte 
au-dela d'une quantite correspondant a 10 3 spores/g de sol pour les sols 
n°2 et n°3, et au-dela de 10 7 spores/g pour le sol n°5 (figure b). 

Au-dessus du niveau de detection, le signal d'hybridation 
augmente avec des quantites croissantes des cellules inoculees. 

Pour I'inoculum de spores, une augmentation de 100 fois dans 
le nombre de cellules ensemencees conduit a une augmentation de 
presque 100 du rendement d'ADN. Cette augmentation est clairement 
inferieure lorsque les hyphae sont inoculees, particulierement dans les 
sols n°2 et n°3 (figure 6). 

Au contraire, les resultats obtenus lorsque I'ADN de phage 
lambda a ete utilise comme inoculum, I'ADN a egalement ete recupere a 
partir du sol riche en argile (n°5) lorsque les cellules bacteriennes ont ete 
utilisees comme inoculum. Cependant, pour ce dernier aussi, le 
traitement par I'ARN a augmente la recuperation d'ADN de 
Streptomyces a partir de ce sol a la fois pour les spores et le mycelium 
(figure 6). 

Le fait d'ensemencer des sols avec des cellules vegetatives de 
Bacillus anthracis a fourni des taux de recuperation similaires a ceux 
obtenus pour Streptomyces. 

De plus, les taux de recuperation d'ADN a partir du sol n°5 ont 
augmente apres traitement par I'ARN egalement pour cet inoculum. 

Exemple 2 : Construction d'une banque d'ADN de faible pofds 
moleculaire (<10 kb) a partir d'un sol contamine par du lindane : 
clonage et expression du gene linA 

Cet exemple decrit la construction d'une librairie d'ADN du sol dans 
E. coli. II permet de demontrer le clonage et I'expression de genes de 
petite taille issus d'une microflore non cultivable . 



WO 01/40497 



86 



PCT/FR00/03311 



Le lindane est un pesticide organochlore, recalcitrant a la 
degradation et persistant dans I'environnement. En aerobie, sa 
biodegradation est catalysee par une dehydrochlorinase, cod§e par le 
gene HnA, permettant de transformer le lindane en 1,2,4- 
5 trichlorobenzene. Le gene HnA n'a ete identifie que parmi deux souches 
isolees du sol : Sphingomonas paucimobilis, isole au Japon (Seeno et 
Wada 1989, Imai et al 1991, Nagata et al 1993) et Rhodanobacter 
lindaniclasticus isole en France (Thomas et al 1996, Nalin et al 1999). 

Pourtant le potentiel de d6gradation du lindane, mis en evidence 
10 par dosage des ions chlorures liberes et amplification par PCR du gene 
HnA a partir de sols ayant et6 en contact ou non avec du lindane, semble 
etre repandu plus largement dans I'environnement (Biesiekierska- 
Galguen, 1997). 

15 1. Extraction directe d'ADN de sol 

Les sols sees sont broye pendant 10 minutes dans un broyeur a 
force centrifuge Restch equipe 6 billes de tungstene. 10 grammes de sol 
broye sont mis en suspension dans 50 ml de tampon TENP pH 9 (Tris 

20 50 mM, EDTA 20 mM, NaCI 100 mM, polyvinylpolypirrolidone 1% w/v), et 
homogeneises au vortex pendant 10 min. 

Apres centrifugation de 5 minutes, 4000 g a 4°C, le surnageant 
est precipite a Tacetate de sodium (3M, pH 5.2) et a Tisopropanol, pour 
etre repris dans du tampon TE sterile (Tris 10 mM, EDTA 1 mM, pH 8.0). 

25 LADN extrait est ensuite purifie sur colonne de tamisage mol6culaire 
S400 (Pharmacia) et sur colonne echangeuse dlons Elutip d (Schleicher 
et Schuell), selon les instructions des fabricants, puis conserve dans du 
TE. 

2. Construction de la banque d'ADN extrait du sol dans le 
30 vecteur pBluescript SK- 

Le vecteur pBluescript SK- et I'ADN extrait du sol sont chacuns 
digeres par les enzymes H/ndlll et SamHI (Roche), a raison de 10 unites 
d'enzymes pour 1 pg d^DN (incubation 2 heures a 37°C). Les ADN sont 
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ensuite ligues par action de la T4 DNA ligase (Roche), une nuit a 15°C, a 
raison d'une unite d'enzyme pour 300 ng d'ADN (environ 200 ng d'ADN 
insert et 100 ng de vecteur digere). Les cellules d' Escherichia coli 
electrocompetentes, ElectroMAX DH10B ™ (Gibco BRL) sont 
5 transformees par le melange de ligation (2 pi) par electroporation (25 pF, 
200 et 500 CI, 2,5 kV) (Biorad Gene Pulser). 

Apres une heure d'incubation dans le milieu LB, les cellules 
transformees sont diluees de facon a obtenir environ 100 colonies par 

io boTte puis sont etalees sur milieu LB (10 g/l Tryptone, 5 g/l extrait de 
levure, 5 g/ NaCI) additionne d'Ampiciline (100 mg/l), de y-HCH (500 
mg/l), de X-gal 60 mg/l (5-bromo-4-chloro-3-indolyl-cx-D-galactoside), et 
d'IPTG 40 mg/l (isopropylthio-p-D-galactoside), et incubees une nuit a 
37°C. Le y-hexachlorocyclohexane (Merck-Schuchardt) etant insoluble 

1 5 dans I'eau, une solution a 50 g/l est preparee dans du DMSO (dimethyl 
sulfoxyde) (Sigma). 

Une banque de 10 000 clones a ainsi ete obtenue. 

3.Clonaqe et expression du gene linA 

20 

Le criblage de la banque s'effectue par visualisation d'un halo de 
degradation du lindane autour de la colonie (le lindane precipitant dans 
les milieux de culture). Sur 10 000 clones cribles, 35 presentaient ainsi 
une activite de degradation du lindane. La presence du gene linA chez 

25 ces clones a pu etre confirmee par PCR grace a des amorces 
specifiques, decrites par Thomas et al (1996). Des digestions realisees 
sur les inserts ainsi que sur les produits d'amplification ont montre des 
profils identiques entre tous les clones cribles et le temoin de reference, 
R. lindaniclasticus. Les clones portant le gene linA presentaient 

30 egalement un insert de meme taille (environ 4 kb). 

II ainsi pu etre demontre que I'ADN du sol pouvait etre clone et 
exprime chez un hote heterologue : E. coli, et que des genes issus d'une 
microflore difficilement cultivable pouvaient etre exprimes. Des banques 
35 realisees a partir de digestion partielle d'ADN extrait du sol par des 
enzymes de restriction telles que Sau3AI sont done aussi envisageables. 
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EXEMPLE 3: 

Procede de preparation d'une collection d'acides nucleiques a 
partir d'un echantillon de sol, comprenant une etape d'extraction 
5 indirecte de I'ADN. 

1. MATERIEL ET METHODES . 

1.1 Extraction de la fraction bacterienne du sol. 

10 

5g de sol sont disperses dans 50 ml de NaCI 0.8% sterile, par 
broyage au Waring Blender pendant 3x1 minute, avec refroidissement 
dans la glace entre chaque broyage. les cellules bacteriennes sont alors 
separees des particules du sol par centrifugation sur un coussin de 

is densite de Nycodenz (Nycomed Pharma AS, Oslo, Norvege). Dans un 
tube a centrifugation, 11,6 ml d'une solution de Nycodenz de densite de 
1.3 g.rnf 1 (8g de Nycodenz suspendu dans 10 ml d'eau sterile) sont 
places en dessous de 25 ml de la suspension de sol precedemment 
obtenue. Apres centrifugation a 10.000 g dans un rotor a godets mobiles 

20 (rotor TST 28.38, Kontron) pendant 40 minutes a 4°C, I'anneau 
cellulaire, se situant a ('interphase de la phase aqueuse et de la phase 
Nycodenz, est preleve, lave dans 25 ml d'eau sterile et centrifuge a 
10.000 g pendant 20 minutes. Le culot cellulaire est ensuite repris dans 
une solution Tris 10 mM; EDTA 100 mMn pH 8.O. 

25 Prealablement a la dispersion du sol au Waring Blender, une 

etape d'enrichissement du sol dans une solution d'extrait de levure peut 
etre incluse afin de permettre notamment la germination des spores 
bacteriennes du sol. 5 g de sol sont alors incubes dans 50 ml d'une 
solution sterile de NaCI 0.8% - extrait de levure 6%, pendant 30 minutes 

30 a 40°C. L'extrait de levure est elimine par centrifugation a 5000 rpm 
pendant 10 minutes afin d'eviter la formation de mousse durant le 
broyage, 

1.2 Lyse des cellules bacteriennes du sol. 

35 
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- Lyse des cellules en milieu liquide et purification sur gradient 
de chlorure de cesium. 

Les cellules sont lysees dans une solution Tris 10 mM, EDTA 
100 mM, pH 8.0 contenant 5 mg.ml" 1 de lysozyme et 0.5 mg.ml" 1 
5 d'achromopeptidase pendant 1 heure a 37°C . Une solution de lauryl 
sarcosyl (1% final) et de proteinase K (2 mg.mr 1 ) est ensuite ajoutee et 
incubee a 37°C pendant 30 minutes. La solution d'ADN est alors purifiee 
sur un gradient de densite de chlorure de cesium par centrifugation a 35 
000 rpm pendant 36 heures sur un rotor Kontron 65.13. Le gradient de 
10 chlorure de cesium employe est un gradient a 1g/ml de CsCI, possedant 
un indice de refraction de 1 ,3860 (Sambrook et al.. 1 989). 

- Lyse des cellules apres inclusion dans un bloc d'agarose. 

Les cellules sont melangees a un volume egal d'agarose a 
1.5% (poids/volume) Seaplaque (Agarose Seaplaque FMC Products. 

is TEBU, Le Perray en Yvelines, France), a bas point de fusion et coulees 
dans un bloc de 100 pi. Les blocs sont ensuite incub6s dans une 
solution de lyse : EDTA 250 mM, saccharose 10.3%, lysozyme 5 mg.ml" 1 
et achromopeptidase 0.5 mg.ml' 1 a 37°C pendant 3 heures. Les blocs 
sont alors laves dans une solution de Tris 10 mM - EDTA 500 mM et 

20 incubes une nuit a 37°C dans de I'EDTA 500 mM contenant 1 mg.ml" 1 de 
proteinase K et du lauryl sarcosyl 1%. Apres plusieurs lavages dans du 
Tris-EDTA, les blocs sont conserves dans de I'EDTA 500 mM. 

La qualite des ADN ainsi extraits est controlee par 
electrophorese en champs pulses. 

25 La quantite d'ADN extrait a ete evaluee sur gel d 'electrophorese 

par rapport a une gamme etalon d'ADN de thymus de veau. 

1.3 Caracterisation moleculaire de I'ADN extrait du sol. 

3 <> Les ADN extraits du sol sont caracterises par hybridation PCR, 

methode qui consiste a amplifier dans un premier temps les ADNs a 
I'aide d'amorces situees sur des regions universellement conservees du 
gene de l'ARNr16S, puis a hybrider les ADNs amplifies avec differentes 
sondes oligonucleotidiques de specificite connue (tableau 4), dans le but 
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de quantifier I'intensite du signal d'hybridation par rapport a une gamme 
etalon externe d'ADN genomique. 

Les ADN extraits du sol ainsi que les ADN genomiques extraits 
de cultures pures sont amplifies avec les amorces FGPS 612-669 
(tableau 1) dans les conditions standard d'amplification par PCR. Les 
produits d'amplification sont ensuite denatures par un volume egal de 
NaOH 1N, deposes sur une membrane de Nylon (GeneScreen Plus, Life 
Science Products) et hybrides avec une sonde oligonucleotidique 
marquee a son extremite par du g 32 P ATP par action de la T4 
polynucleotide kinase. Apres prehybridation de la membrane dans une 
solution de 20 ml contenant 6 ml de SSC 20X, 1 ml de solution de 
Denhardt, 1 ml de SDS 10% et 5 mg d'ADN heterologue de sperme de 
saumon, les hybridations sont conduites durant une nuit a la temperature 
definie par la sonde. Les membranes sont lavees deux fois dans du SSC 
2X pendant 5 minutes a temperature ambiante, puis une fois dans du 
SSC 2X SDS 0,1% et une seconde fois dans du SSC 1X, SDS 0,1% 
pendant 30 minutes a la temperature d'hybridation. Les signaux 
d'hybridation sont quantifies a I'aide du logiciel Molecular Analyst 
(Biorad, Ivry sur Seine, France) et les quantites d'ADN sont estimees par 
interpolation des courbes etalons obtenues a partir des ADN 
genomiques. 

2. RESULTATS ET DISCUSSION 



2.1 Extrac tion et Ivse de la fraction bacterienne du sol. 

La separation des cellules microbiennes des particules du sol, 
prealablement a I'extraction de I'ADN, est une alternative presentant de 
nombreux avantages par rapport aux methodes d'extraction directe de 
I'ADN dans le sol. En effet, I'extraction de la fraction microbienne limite 
la contamination de I'extrait d'ADN par de I'ADN extracellulaire present 
librement dans le sol ou par de I'ADN d'origine eucaryote. Mais surtout, 
I'ADN extrait de la fraction microbienne du sol presente des fragments 
de plus longue taille et une meilleure integrite que I'ADN extrait par lyse 
directe JACOBSON et RASMUSSEN (1992). De plus, la separation des 
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particules de sol permet d'eviter une contamination de I'extrait d'ADN par 
des composes humiques et phenoliques, composes pouvant, par la 
suite, nuire gravement aux efficacites de clonage. 

Une des etapes determinates pour ('extraction des cellules du 
5 sol est la dispersion de I'echantilion de sol afin de dissocier les cellules 
adherant a la surface ou a I'interieur des agregats de particules de sol. 
Trois cycles de broyage successifs d'une minute chacun permettent 
d'obtenir une meilleure efficacite d'extraction des cellules ainsi qu'une 
plus grande quantite d'ADN recupere, par rapport a un unique cycle de 
10 broyage d'une minute 30. 

Le tableau 5 rapporte les efficacites d'extraction obtenues 
apres centrifugation sur gradient de Nycodenz , sur la microflore totale 
viable (denombree par microscopie apres coloration a I'acridine orange), 
sur la microflore totale cultivable (denombree sur milieu solide 
is Trypticase-Soja 10%), et sur la microflore d'actinomycetes cultivates 
sur milieu HV agar (apres incubation a 40°C dans une solution d'extrait 
de levure 6% -SDS 0,05% afin de provoquer la germination des sprores). 
D'autre part, I'ADN extrait a ete quantifie soit apres une lyse des cellules 
en milieu liquide (sans purification sur gradient de chlorure de cesium) 
20 soit apres une lyse des cellules incluses dans un bloc d'agarose (apres 
digestion de I'agarose par une b-agarase). 

Les resultats montrent que plus de 14% de la microflore 
tellurique totale est recupere par cette methode (soit 2 10 s cellules par 
gramme de sol), et que la microflore totale cultivable ne represente qu'a 
25 peine 2% de la population microbienne totale. 

D'autre part, la quantite d'ADN extrait des cellules est de 330 
ng par gramme de sol sec. En estimant le contenu d'ADN par cellule 
microbienne du sol entre 1.6 et 2.4 fg, et compte tenu de la quantite de 
cellules extraites (2 10 8 cellules par gramme de sol), on peut estimer que 
30 la quasi-totalite des cellules ont et6 lysees et qu'ainsi la lyse n'apporte 
pas d'important biais a cette approche. 

Les electrophoreses en champs pulsus ont montre que I'ADN 
du sol extrait apres gradient de Nycodenz et de CsCI pouvait atteindre 
une taille de 150 kb et que la lyse en bloc d'agarose permettait d'extraire 
35 des fragments superieurs a 600kb. 
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Ces resultats confirment Tinteret de cette approche 
independante de la culture pour la construction de banques d'ADN de 
I'environnement, en se presentant comme une alternative aux methodes 
directes d'extraction d'ADN. 

5 

2.2 Caracterjsation moleculaire de I'ADN extrait du sol. 

Le but de la caracterisation moleculaire de I'ADN extrait du sol 
est d'obtenir des profils representant les proportions des differents 
io taxons bacteriens presents dans I'extrait d'ADN. II s'agissait egalement 
de connaTtre les biais d'extraction induits par la separation prealable de 
la reaction cellulaire du sol, en comparaison avec une rnethode 
d'extraction directe faute de visualisation directe de la diversite 
microbienne presente dans les sols. En effet, peu d'informations ont ete 

15 rassemblees sur I'extraction des cellules sur gradient de Nycodenz en 
fonction de leur structure morphologique (diametre des cellules, formes 
filamenteuses ou sporulees). 

Les methodes jusqu'ici en place etaient basees sur des: 

hybridations quantitatives utilisant des sondes 

20 oligonucleotidiques specifiques a differents groupes bacteriens, 
appliques directement d'ADN extrait de I'environnement. 
Malheureusement, cette approche n'est pas tres sensible et ne permet 
pas de detecter des genres ou des groupes taxonomiques presents en 
faible abondance AMANN (1995). 

25 - PCR quantitatives telles que la MPN-PCR (Most Probable 

Number) SYKES et al. (1992) ou la PCR quantitative par competition 
DIVIACCO et al. (1993). Les inconvenients respectifs de chacune de ces 
approches sont (i) la lourdeur d'utilisation du fait de la multiplication des 
dilutions et des repetitions qui rend la technique inappropriee pour un 

30 grand nombre d'echantillons ou de couples d'amorces, et (ii) la necessite 
de construire un competiteur specifique a I'ADN cible et n'induisant pas 
de biais dans la competition. 

La rnethode mise en place selon la presente invention consiste 
a amplifier universellement un fragment de 700 pb £ I'interieur de la 

35 sequence d'ADNr 16S, a hybrider cet amplifiat avec une sonde 
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oligonucleotidique de specificite variable (au niveau du regne, de I'ordre, 
de la sous classe ou du genre) et a comparer Tintensite d'hybridation de 
I'echantillon par rapport a une gamme etalon externe. L'amplification 
prealable a I'hybridation permet de quantifier des genres ou des especes 
5 de micro-organismes peu abondants. De plus, ramplification par des 
amorces universelles permet, lors de Thybridation, d'utiliser une large 
serie de sondes oligonucleotidiques. Elle permet de comparer entre eux 
differents modes de lyse (extraction directe ou indirecte) sur des groupes 
taxonomiques bien definis. 

10 Les resultats sont rassembles dans le tableau 6. 

lis montrent des profils similaires entre les deux methodes 
d'extraction (directe et indirecte). Ainsi, il apparaTt que I'extraction 
prealable de la fraction microbienne tellurique n'introduit pas de reels 
biais parmi les taxons testes. La seule difference significative entre les 

15 deux approches d'extraction semblerait etre la plus grande abondance 
de sequences d'ADNr appartenant aux y proteobacteries dans I'extrait 
par la methode d'extraction indirecte. 

De plus, un effet significatif de I'incubation de I'echantillon de 
sol dans une solution d'extrait de levure est observe sur les populations 

20 sporulees du sol (Gram*, bas pourcentage de GC et Actinomycetes). 
Cette etape provoque la germination des spores, et permet d'une part 
certainement une meilleure recuperation de ce type de cellules et d'autre 
part une plus grande efficacite de la lyse sur des cellules en germination. 

Cette approche permet une analyse semi-quantitative, ciblee 

25 sur les principaux taxons definis a partir de micro-organismes cultives et 
habituellement retrouves dans les sols. Seuls des outils moleculaires 
permettent d'estimer Timportance des differents taxons, les methodes de 
mise en culture etant trop restrictives et dependantes de la specificite du 
milieu utilise. 

30 Les resultats montrent qu'une grande part de la population 

microbienne n'est pas representee dans les groupes phylogenetiques 
decrits, mettant ainsi en evidence Texistence de nouveaux groupes 
composes de micro-organismes non cultives jusqu'a present, ou non 
cultivables. 
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Ainsi, de nouvelles sondes peuvent etre definies a partir de 
sequences determinees a partir d'ADN extrait du sol (nouveaux phylums 
composes de micro-organismes non cultives, LUDWIG et al. (1997) afin 
d'obtenir une image plus exacte de la composition de I'extrait d'ADN. 

5 

Exemple 4 : - CONSTRUCTION DU COSMIDE POS 700I 
Caracteristiques de POS 7001: 

Replicatif chez E. coli 
i o I nteg ratif chez Streptomyces 

Selectionnable chez E. coli AmpR, HygroR et Streptomyces 

HygroR 

Les proprietes du cosmide permettent d'inserer de grands 
fragments dADN entre 30 et 40kb. 
15 II comprend 

1 - Le promoteur inductible tipA de Streptomyces lividans 

2 - Le systeme d'integration specifique de I'el6ment pSAM2 

3 - Le gene de resistance a I'hygromycine 
4- le cosmide pWED1, derive de pWED15 

20 

1) - Le promoteur inductible du gene tip A de S. lividans 

Le gene tipA code une proteine de 19 KD dont la transcription 
est induite par I'antibiotique thiostrepton ou nosiheptide. Le promoteur de 
25 tipA est bien regule: induction en phase exponentielle et en phase 
stationnaire (200X) Murakami T, Holt TG, Thompson CJ. J. Bacterid 
1989 ;171 : 1459-66 

2) - Le gene de resistance a Phyqromvcine 

30 

- Hygromycine: antibiotique produit par S. hygroscopicus 

- Le gene de resistance code une phosphotransferase (hph) 

- Le gene utilise provient d'une cassette construite par Blondelet et al 
dans laquelle le gene hyg est sous controle de son propre promoteur 
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et du promoteur plac inductible par I'lPTG Blondelet-Rouault et al ; . 
Gene 1997 ;190 :315-7 

3) - Le svsteme d'integration site-specifique 

L'element pSAM2 s'integre dans le chromosome par un 
mecanisme d'integration site-specifique. La recombinaison a lieu entre 
deux sequences identiques de 58 pb presentes sur le plasmide (attP) et 
sur le chromosome (atfB). 

Le gene int, situe a proximite du site attP, est implique dans 
I'integration site-specifique de pSAM2, et son produit presente des 
similitudes avec les integrases des bacteriophages temperes 
d'enterobacteries. II a ete demontre qu'un fragment de pSAM2 ne 
contenant que le site d'attachement atfP ainsi que le gene int etait 
capable de s'integrer de la meme maniere que l'element entier. Voir 
brevet francais n°88 06638 du 18/05/1988, ainsi que Raynal A et al. Mol 
Microbiol 1998 28 :333-42). 

4) - Construction du cosmide pOS700l 

Etape 1/ Le promoteur TipA a ete isole du plasmide pPM927 (Smokvina 
et al. Gene 1990; 94:53-9 ) sur un fragment Hindlll-BamHI de 700 
paires de bases et clone dans le vecteur pUC18 (Yannish-Perron et al., 
1985) digere par Hindlll/BamHI 

Etape 2/ Ce fragment Hindlll-BamHI a ulterieurement ete transfere de 
pUC18 a pUC19 (Yannish-Perron et al., 1985). 

Etape 3/ Un insert BamHI-BamHI de 1500 paires de bases portant le 
gene int et le site attP de pSAM2 a ete isole du plasmide pOSintl, 
represente a la Figure 8, (Raynal A et al. Mol Microbiol 1998 28 :333-42) 
et clone au site BamHI du vecteur precedent (pUC19/TipA), dans 
I'orientation permettant de mettre le gene int sous contr6le du promoteur 
TipA. 
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Etape 4/ Le site Bam HI situe en 5' du gene int a ete supprime par 
digestion partielle BamHI puis traitement par I'enzyme Klenow. Un 
fragment Hindlll-BamHI portant TipA-int-attP a ainsi ete isole de pUC19 
et transfere dans pBR322 Hindlll/BamHI. 

Etape 5/ La cassette Hygromycine isolee de pHP45Qhyg (Blondelet- 
Rouault et al., 1997) sur un fragment Hindlll-Hindlll a ete donee au site 
Hindi 1 1 situe en amont du promoteur Tip A. 

Etape 6/ Le site Hind III situe entre la cassette QHyg et le promoteur 
TipA a ete supprime par traitement Klenow apres digestion partielle 
Hindlll. 

Etape7/ Le plasmide obtenu a Tissue de I'etape precedente permet 
d'isoler un fragment unique Hindlll-BamHI, portant tous les elements 
QHyg/TipA/int attP, qui a ete clone apres traitement Klenow au site 
EcoRV du cosmide pWED1. Le cosmide pWED1, represents a la Figure 
9, derive du cosmide pWE15, represents a la Figure 10 (Wahl GM. et al. 
. Proc Natl Acad Sci U S A 1987 84:2160-4) par deletion d'un fragment 
Hpal-Hpal portant le gene Neomycine et I'origine SV40. 

Une carte du vecteur pOS 700I est representee a la Figure 11. 

Exemple 5: Construc tion de plusieurs cosmides coniuqatifs et 
integratifs chez Stre otomvces. les vecteur pQSV 303. POSV306 et 
POSV307 

5 .1 Construction du vecteur POSV303. 

Etant donne que I'empaquetage selectionne les clones ayant 
une taille superieure a 30kb, seuls 10 a 15% des clones ne contiennent 
pas d'insert, il n'est done pas vraiment necessaire d'avoir un systeme de 
selection des recombinants, ce qui permet de construire un vecteur plus 
petit. 
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Construction: 

Etape 1 : le vecteur pOSVOOl 

Clonage d'un fragment Pstl-Pstl de 800 paires de bases portant 
I'origine de transfer! OriT du replicon RK2 (Guiney et al., 1983), dans le 
5 plasmide pUC19 ouvert par Pstl. Cette etape de clonage permet 
d'obtenir un vecteur transferable de E. coli & Streptomyces par 
conjugaison. 

La carte du vecteur pOSV 001 est representee a la Figure 17. 

10 Etape 2 : le vecteur pOSV002 

Insertion du marqueur Hygromycine (cassette Qhyg), et 
selectionnable chez Streptomyces, de sorte que le gene conferant la 
resistance d I'hygromycine soit transfere en dernier ce qui permet de 
s'assurer du transfert complet du BAC avec I'insert d'ADN du sol. 

15 Clonage de la cassette Hygromycine isolee de pHP45fihyg sur un 

fragment Hindlll-Hindlll portant le gene de resistance a I'Hygromycine.. 
Ce fragment est clone au site Pstl (position 201) du vecteur pOSVOOl. 
Ce site Pstl a ete choisi, compte tenu du sens du transfert, pour que le 
marqueur Hygro soit le dernier transfere lors de la conjugaison. Les 

20 extr§mites Pstl et Hindlll sont rendues compatibles apr6s traitement par 
le fragment Klenow de I'ADN polymerase permettant de g6nerer des 
"bouts francs". L'orientation du fragment Qhyg est determinee en fin de 
construction. 

La carte du vecteur pOSV002 est representee a la Figure 18. 

25 

Etape 3 : le vecteur pOSV010 

Le fragment Xbal-Hindlll isole du plasmide pOSV002 et 
contenant le marqueur de resistance a I'hygromycine et I'origine de 
transfert est clone dans le plasmide pOSintl digere par Xbal et Hindlll. 
30 L'orientaion des sites est telle que le marqueur hygromycine sera 
toujours transfere en dernier. 

Le plasmide pOSintl, represents a la Figure 8, a ete decrit dans Particle 
de Raynal et a!.( Raynal A et al. Mol Microbiol 1998 28 :333-42). 

Cette construction permet Texpression de I'integrase chez E. 
35 coli et chez Streptomyces. 
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Etape 4 : insertion du site " cos " 

Le principe est d'inserer un site " cos " dans le plasmide 
pOSV010 permettant I'empaquetage dans le plasmide pOSV010, 
represents a la Figure 12. 

L'obtention du fragment " cos *' est representee a la Figure 13. 

Ce fragment est obtenu par PCR. A partir d'un fragment portant 
les extremites cohesives (cos) de X (bacteriophage lambda ou cosmide 
pHC79), une amplification par PCR est realisee a I'aide des 
oligonucleotides correspondant aux sequences -50/+130 par rapport au 
site cos. Ces oligonucleotides contiennent en outre les sites de 
clonage Nsil, compatible Pstl, Xhol, compatible Sail, EcoRV, " bout 
franc ". 

L'addition des sites rares Swal et Pad permet d'isoler et/ou de 
cartographier I'insert clone. 

Le fragment PCR est borne par un site Pstl a I'extremite 5' et 
par un site Hindi a I'extremite 3', permettant le clonage dans le vecteur 
pOSV010 (Figure 12) prelablement digere par les enzymes Nsil et 
EcoRV, provoquant la deletion du represseur laclq. 

La carte du vecteur pOSV303 est representee sur la Figure 14. 
Le vecteur pOSV303, contient des sites de clonage tels que le site Nsil, . 
compatible Pstl, le site Xhol, compatible Sail ou encore le site EcoRV 
pour l'obtention de " bouts francs ". 

5.2 Construction du vecteur pOSV306 

Etape 1: Construction du vecteur DOSV308. 

Le vecteur pOSV308 a ete construit selon le procede illustre a 
la figure 27. Un fragment de 643 pb contenant la region cos a ete 
amplifie a I'aide du couple d'amorces de sequences SEQ ID N°107 et 
SEQ ID N°108 a partir du vecteur cosmide pHc79 decrit par HOHM B 
and COLLINS (1980). 
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Ce fragment nucleotidique amplifie a 6te clone directement 
dans le vecteur pGEMT-easy commercialise par la Societe PROMEGA, 
comme illustre a la figure 27 afin de produire le vecteur pOSV308. 

5 Etape 2: Construction du vecteur pOSV306. 

Le vecteur pOSV010 a ete construit comme decrit a I'etape 3 
de construction du vecteur pOSV303, comme decrit au paragraphe 5.1 
du present exemple. 
io Le vecteur pOSV1 0 a ete digere par les enzymes EcoRV et Nsil 

afin d'exciser un fragment de 7874 pb qui a 6te ulterieurement purifte, 
comme cela est illustre a la figure 28. 

Puis, le vecteur pOSV308 obtenu a I'etape 1) ci-dessus a ete 
soumis a une digestion par les enzymes EcORV et Pstl afin d'exciser un 
15 fragment de 617 pb, qui a ete ulterieurement purifie. 

Puis, le fragment cos de 617 pb obtenu a partir du vecteur 
pOSV308 a ete integre par ligation dans le vecteur pOSVIO, afin 
d'obtenir le vecteur pOSV306, comme cela est illustre a la figure 28. 

20 5.3 Construction du vecteur pOSV307. 

Le cosmide pOSV307 contient toujours le gene Laclq, afin 
d'ameliorer la stability du cosmide dans Streptomyces, par exemple 
dans la souche S17-1 de Streptomyces. 
25 Afin de construire le vecteur pOSV307, on a soumis le vecteur 

pOSV010 a une digestion par I'enzyme Pvull, pour obtenir un fragment 
de 8761 pb qui a ete purifie, puis dephosphoryle. 

Ensuite, le vecteur pOSV308, tel qu'obtenu comme decrit a 
I'etape 1) du paragraphe 5.2 ci-dessus, a ete digere par Tenzyme EcoRI 
30 afin d'obtenir un fragment de 663 pb, qui a ete ensuite purifie et traite par 
Tenzyme de Klenow. 

Le fragment nucleotidique ainsi traite a ete integre dans le 
vecteur pOSV010 apres ligation afin d'obtenir le vecteur pOSV307 ( 
comme illustre a la figure 29. 

35 
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Exemple 6 : - Construction du cosmide replicatif navette E. co/f- 
Streotomvces pOS700R. 

Les fragments du plasmide pEI16 (Volff et al., 1996) represents 
5 a la Figure 15 ont ete isoles et traites par Klenow. Ces fragments 
contiennent les sequences necessaires a la replication et a la stabilite 
provenant du plasmide SCP2. 

Ces deux fragment sont inseres s6parement dans le site 
EcoRV du cosmide pWED1 conduisant a 2 clones differents. 
10 La cassette Hygromycine isolee de pHP45Qhyg sur un 

fragment Hindlll-Hindlll a ete donee au site Hindlli des cosmides 
pWED1 contenant I'insert ScP2 sous forme de fragments Pstl-EcoRI ou 
Xbal. Elle confere une resistance a THygromycine selectionnable a la 
fois chez E. coli et chez Streptomyces. 
15 Transformation de S. lividans et determination de I'efficacite de 

transformation. 

II est apparu que le cosmide contenant I'insert Xbal etait moins 
stable que celui contenant le fragment Pstl EcoRI. C'est done ce dernier 
qui a ete retenu sous le nom de pOS700R. 
20 La carte du vecteur pOS 700R est representee sur la Figure 16. 

Exemple 7: Efficacite de transformation des vecteurs integratifs 
(POS700I) et replicatifs 

25 Possibilites 

Rendre la souche de S. lividans resistante au thiostrepton par 
integration du plasmide pTOI portant le marqueur de resistance au 
thiostrepton 

Preparation de protoplastes a partir de S. lividans cultivee en 
30 presence de thiostrepton 

Avec le vecteur POS700I, Tefficacite de transformation est 
d'environ 3000 transformants par pg d'ADN. 

Avec le vecteur pOS700R, refficacite de transformation est 
d'environ 30 000 transformants par pg d'ADN. 
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Exemple 8 : Construction d'un vecteur BAC inteqratif chez 

Streptomvces et coniugatif 

Caracteristiques: 

5 

Replicatif chez E. coli 

Transferable par conjugaison de E. coli aux Streptomyces 

Integratif chez Streptomyces 

Selectionnable chez E. coliet Streptomyces 
10 Capable d'inserer de grands fragments d'ADN ; il faut souligner qu'il est 

n6cessaire de disposer d'ADN du sol dont la taille est comprise entre 

100 et 300kb et non contamin6 par des petits fragments. En effet les 

petits fragments sont tres preferentiellement integres. 

Dote d'un crible permettant de selectionner les plasmides 
15 portant un insert. Ce crible permet en eliminant les vecteurs refermes sur 

eux meme et non dig6res de travailler avec un rapport plus eleve entre 

vecteur et DNA a inserer ce qui permet d'avoir une meilleure efficacit6 

de clonage pour constituer des banques. 

20 Construction: 

Etape 1 : le vecteur pQSVOOl 

Clonage d'un fragment Pstl-Pstl de 800 paires de bases portant 
25 Torigine de transfert OriT du replicon RK2 (Guiney et aL, 1983), dans le 
plasmide pUC19 ouvert par Pstl. Cette etape de clonage permet 
d'obtenir un vecteur transferable de E. coli a Streptomyces par 
conjugaison. 

La carte du vecteur pOSV 001 est representee a la Figure 17. 

30 

Etape 2 : le vecteur pOSV002 

Insertion du marqueur Hygromycine (cassette Qhyg), et 
selectionnable chez Streptomyces, de sorte que le gene conferant la 
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resistance a I'hygromycine soit transfere en dernier ce qui permet de 
s'assurer du transfert complet du BAC avec I'insert d'ADN du soL 

Clonage de la cassette Hygromycine isolee de pHP45Qhyg sur un 
fragment Hindlll-Hindlll portant !e gene de resistance a I'Hygromycine.. 

5 Ce fragment est clone au site Pstl (position 201) du vecteur pOSVOOI. 
Ce site Pstl a ete choisi, compte tenu du sens du transfert, pour que le 
marqueur Hygro soit le dernier transfere lors de la conjugaison. Les 
extremites Pstl et Hindlll sont rendues compatibles apres traitement par 
le fragment Klenow de PADN polymerase permettant de gen6rer des 

10 "bouts francs", forientation du fragment Qhyg est determinee en fin de 
construction. 

La carte du vecteur pOSV002 est representee a la Figure 18. 
Etape 3 : le vecteur pOSVOIQ 

15 

Le fragment Xbal-Hindlll isole du plasmide pOSV002 et 
contenant le marqueur de resistance a Thygromycine et I'origine de 
transfert est clone dans le plasmide pOSintl digere par Xbal et Hindlll. 
L'orientation des sites est telle que le marqueur hygromycine sera 
20 toujours transfere en dernier. 

Le plasmide pOSintl, represents a la Figure 8, a ete decrit 
dans Particle de Raynal et al.( Raynal A et al. Mol Microbiol 1998 28 
:333-42). 

25 Cette construction permet Pexpression de Pintegrase chez E. 

coli et chez Streptomyces. 

Etape 4 : le vecteur pOSV014 

30 Addition d'une "cassette" permettant a terme de selectionner 

dans la construction finale les plasmides ayant inseres de PADN 
etranger. 

Cette "cassette" porte le gene codant pour le represseur CI du phage X 
et le gene conferant la resistance a la tetracycline. Ce gene porte dans 
35 sa region 5 1 non codante la sequence cible du represseur. Uinsertion 
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d'ADN dans le site Hindlll situe dans la sequence codante de CI conduit 
a la non production du represseur et done a I'expression de la resistance 
a la tetracycline. 

Elle est portee par le plasmide pUN99 decrit dans I'article : Nilsson et al . 
5 (Nucleic Acids Res 1983, 11:8019-30) 

Un fragment Pvull-Hindlll isole de pOSV010 et contenant les sequences 

Int, attP, Hygro et oriT est clone au site Mscl de pUN99 . 

La carte du vecteur pOSV014 est representee sur la Figure 19. 

10 Etape 5 : le vecteur pOSV 403, vacteur BAC integratif et conjuqatif 

Cette derniere etape de clonage dans pBAC1 1 (represents a la 
Figure. 20) permet de conferer au plasmide final des caracteristiques de 
BAC (Bacterial Artificial Chromosome), en particulier I'aptitude a 
is accepter des inserts d'ADN de tres grande taille. 

Le fragment Pstl-Pstl du vecteur pOSV014 portant Tensemble 
des elements et fonctions decrits precedemment est clone dans le 
pasmide pBAC11 (pBeloBACH) digere par Notl. Les extremites sont 
rendues compatibles pat traitement avec Tenzyme de Klenow. 
20 La carte du vecteur pOSV403 est representee sur la Figure 21. Le 
schema de la Figure 21 indique I'orientation retenue. 

Etape 6 : 

Le vecteur pOSV403 contient les sites Hindlll et Nsil. Le site 
25 Nsil est assez rare chez Streptomyces et presente I'avantage d'etre 
compatible avec Pstl. En revanche, le site Pstl est frequent chez 
Streptomyces et peut etre utilise pour effectuer des digestions partielles. 

Les clones recombinants portant un insert clone dans le 
represseur CI, et done inactivant ce represseur deviennent resistants a 
30 la tetracycline. Etant donne que les BACs ne sont presents qu'a raison 
d'une copie par cellule, il faut selectionner les clones recombinants avec 
une dose plus faible de tetracycline que la dose habituelle de 20 pg/ml, 
par exemple avec une dose de 5 pg/ml. Dans ces conditions il n f y a 
aucun bruit de fond. 
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II est aussi possible d'utiiiser un systeme developpe et 
commercialise par la societe InVitrogen, dans lequel Tinsertion d'ADN 
dans le vecteur inactive un inhibiteur de la gyrase dont Texpression est 
toxique pour E. coli. Le fragment est preferentiellement isole a partir du 
5 vecteur pZErO-2 (http://www.invitrogen.com/). 

Exemple 9 : Construction d'une banque de S. alboniaer dans les 2 
cosmides integratif (pOS700l) et replicatif (pOS700R) 

io 1) - Construction de la Banque 

Pour evaluer I'efficacite du systeme de clonage, la voie de 
biosynthese de la puromycine de Streptomyces alboniger, a ete donee 
dans les deux cosmides navettes pOS700l et pOS700R. Les genes de 
15 la voie de biosynthese de la puromycine sont portes par un fragment 
d'ADN BamHI d'environ 15 Kb. 

L'ADN genomique de Streptomyces alboniger a ete isole. 90% de cet 

ADN possede un poids moleculaire compris entre 20 et 150 Kb, 

determine par electrophorese en champ pulse. 
20 Les deux cosmides ont ete digeres par I'enzyme BamHI (site 

unique de clonage). 

Les conditions de digestion partielle BamHI de I'ADN 

genomique ont ete determinees (50 pg d'ADN et 12 unites d^nzyme, 5 

minutes de digestion). Apres verification de la taille par electrophorese 
25 en gel d'agarose, I'ADN partiellement digere a ete introduit dans les 

vecteurs. Dans la ligation, 15 pg d'ADN genomique + 2 pg du vecteur 

integratif ou 5 pg du vecteur replicatif ont ete utilises. 

Chaque melange de ligation a ete utilise pour I'encapsidation in 

vitro de I'ADN dans les tetes de bacteriophage lambda. Les melanges 
30 d'encapsidation (0,5ml) ont ete titres (Vecteur integratif pOS700l = 7,5 x 

10 5 cosmides/ml, Vecteur replicatif= 5 x 10 4 cosmides/ml). 

Les cosmides ont ete utilises pour transfecter E. coli et gen6rer 

ainsi deux banques d'environ 25000 clones resistant a I'ampicilline. 

L'ADN de I'ensemble de ces clones a ete isole et quantifie. 
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Pour tester les banques, plusieurs clones ont 6te choisis, I'ADN 
purifie et a ete digere par BamHI, afin de verifier la presence et la taille 
des inserts. Les clones testes contiennent entre 20 et 35 Kb d'insert de 
S. alboniger. 

5 

2) - Identification des clones contenant la voie de biosynthese de la 
puromycine 

Les clones susceptibles de contenir la voie complete de biosynthese de 
10 la puromycine ont ete identifies par hybridation avec une sonde 
correspondant au gene de resistance a la puromycine, le gene pac de 
1,1 kb. (Lacalle et al. Gene 1989;79, 375-80 ) 

Banque faite dans le Vecteur Inteqratif pOS 700I: 

15 

Parmi 2000 clones analyses, 9 clones ont hybride avec la 
sonde et ils contiennent des inserts d'environ 40 kb. 

Banque faite dans le Vecteur replicatif pOS 700R: 

20 

Parmi 2000 clones analyses, 12 clones ont hybride avec la sonde; ils 
contiennent des inserts d'environ 40 kb. 

En utilisant les donnees publiees par Tercero et al. (J Biol 
25 Chem. 1996; 271, 1579-90), les clones contenant la totalite de la voie de 
biosynthese ont ete identifies, apres hybridation avec des sondes 
appropriees. Certains cosmides integratifs et replicatifs presentent apr6s 
digestion Clal-EcoRV un fragment de 12360 paires de bases, ce qui 
laisse supposer un insert contenant la totalite de la voie de biosynthese 
30 de la puromycine. 

4) - Verification de la production de puromycine par les clones 
resistants (Rhone-Poulenc). 
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a) Materiels et Methodes 
Souches et conditions de culture : 

5 

Trois clones resistants ont ete selectionnes pour verifier la production de 
puromycine. lis correspondent aux recombinants de S. lividans 
contenant un insert dans le vecteur integratif pOS700l (G 20) ou un 
insert dans le vecteur replicatif (G21 et G22). 

10 

Des souches de reference ont ete utilisees pour s'assurer que les 
milieux de culture utilises permettaient cette production. II s'agit de la 
souche sauvage S. alboniger ATCC 12461, productrice de puromycine 
et de la souche recombinante S. lividans contenant le cluster complet de 
15 la puromycine clone dans le plasmide pRCP11 (Lacalle et al, 1992, the 
EMBO journal, 11, 785-792) (G23). 

Les souches sont ensemences dans un milieu de culture dont la 



composition est la suivante : 
20 Peptone bacteriologique Organotechnie 5 g/l de milieu final 

Extrait de levure Springer 5 

Extrait de viande Liebig 5 

Glucose Prolabo 15 

CaC03 (1) Prolabo 3 

25 NaCI Prolabo 5 

Agar (2) Difco 1 



(1) Les 3g de carbonate sont melanges a 200ml d'eau distillee puis 
sterilises a part. L'addition se faisant apres sterilisation. 
30 (2) L'agar est prealablement fondu dans 100ml d'eau distillee avant d'etre 
ajoute aux autres ingredients du milieu 

pH ajuste a 7,2 avant sterilisation 
sterilisation 25 minutes a 121°C 

35 
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50 pg/l d'hygromycine et 5 pg/l de thiostrepton sont ajoutes au milieu 
apres sterilisation de fa?on a maintenir une pression de selection des 
clones contenant un insert grace au gene marqueur present sur le 
vecteur ( le gene de resistance au thiostrepton etant porte par le 
5 plasmide pRCP11). 

50 ml de milieu de culture liquide, repartis en erlenmeyers de 250 ml, 
sont ensemenc6s avec 2 ml de suspension aqueuse de spores et de 
mycelium de chacune des souches. Les cultures sont incubees pendant 

10 4 jours a 28°C avec une agitation de 220 trs/mn.50 ml de milieux de 
production, repartis en erlenmeyers de 250 ml, sont ensuite ensemenc6s 
avec 2 ml de ces pre-cultures. Le milieu de production utilise est un 
milieu industriel optimise pour la production de pristinamycine (milieu 
RPR 201). Les cultures sont incubees a 28°C. avec une agitation de 

is 220trs/mn. Apres differents temps d'incubation, un erlenmeyer de 
chaque culture est amene a pH 11 puis extrait par 2 fois 1 volume de 
dichloromethane. La phase organique est concentree £ sec sous 
pression reduite, puis I'extrait est repris par 10 pi de methanol. 100 pi de 
la solution methanolique sont analyses en CLHP munie d'un detecteur a 

20 barrette de diodes dans un systeme gradient eau-acetonitrile 0,05% TFA 
VA/ sur colonne C18 pour la detection de la puromycine. 

b) Resultats 

Les analyses HPLC comparatives a partir des cultures des 
25 differentes souches montrent la production de puromycine dans la 
culture de la souche sauvage a partir de 24 h d'incubation. Une 
production, bien que plus faible, est aussi nettement detectee a partir de 
48 h dans la culture du clone G20 contenant le cosmide pOS700l (figure 
23). La puromycine a egalement ete detecte a Tetat de trace dans le 
30 clone G23 contenant Toperon complet codant pour le compose dans le 
plasmide pRCP11. Neanmoins, aucune production n'a ete observee 
dans les cultures des clones G21 et G22 contenant le cosmide 
pOS700R. Les resultats sont reportes sur la Figure 23. 
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c) Conclusions 

Les resultats obtenus permettent de demontrer I'efficacite du 
5 systeme de clonage developpe dans le cosmide pOS700l pour exprimer 
chez un hote heterologue tel que S. lividans une voie de biosynthese 
complete sous le controle de sequences regulatrices qui lui sont propres. 
D'autre part, ces donnees valident 6galement !e criblage des banques 
obtenues sur la base de la resistance des clones a la puromycine 

io puisqu'il a conduit £ identifier parmi un petit nombre de clones, un 
recombinant capable d'exprimer la voie de biosynthese associee au 
gene de resistance. L'absence de production de puromycine chez les 
autres clones peut probablement s"expliquer par le clonage d'une partie 
seulement de I'operon contenant le gene de resistance mais depourvue 

is de certaines sequences de regulation, transduction ou transcription 
necessaires a la synthese du compose. 

EXEMPLE 10 : - CLONAGE P'ADN DU SOLDANS DES VECTEURS 
1) - Preparation de I'ADN du sol a doner 

20 

Les differents fragments d'ADN doivent etre purifiees selon leur 
destination : 

Cosmides 

25 

La taille des molecules doit etre comprise entre 30 et 40kb. Or , 
TADN extrait du sol est heterogene en taille et comprend des molecules 
atteignant 200 ou 300kb. Afin d'homogeneiser les tailles, TADN est 
casse mecaniquement par passage de la solution a travers une aiguille 
30 de 0,4mm de diametre. Les fragments d'une taille voisine de 30kb ne 
sont pas affectes par ces passages repetes a travers une aiguille et il 
n'est done pas necessaire de faire une separation par la taille surtout 
que Tempaquetage dans les particules elimine automatiquement les 
inserts courts. 

35 
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BACs 

Preparation de I'ADN 

L'ADN du sol est separe par electrophorese en champ pulse (type 
5 CHEF) dans des conditions telles que les fragments compris entre 

100 et 300kb sont concentres dans une bande d'environ 5mm. Ceci 
est obtenu en r6alisant la migration dans un gel a 0,7% d'agarose 
normal ou 1% d'agarose a bas point de fusion avec un temps de 
pulsation de 100 secondes pendant 20 heures et a une temperature 
10 de10°C. 

Recuperation de I'ADN 

Deux methodes sont utilisees, leur choix depend de la taille des 
15 molecules que Ton veut isoler, soit jusqu'a 150kb soit au dessus. 

- Jusqu'a 150kb 

La porosite d'un gel a 0,7% d'agarose permet la sortie de I'ADN par 
20 electroelution a condition d'absence totale de bromure d'ethidium. 

Cet ADN est ensuite manipule avec des instruments de pipetage a 
orifice agrandi et hydrophobe pour eviter la fragmentation mecanique 
des molecules. 
-Entre 100 et 300kb 

25 

La bande contenant les fragments d'une taille entre 100 et 300kb est 
decoupee. Pour la migration un gel d'agarose a 1% et a bas point de 
fusion est utilise. Cette propriete permet de fondre le gel a une 
temperature supportable pour I'ADN de 65°C et de le digerer ensuite 
30 par I'agarase (Agarase commercialis^e par la societe Boehringer) a 

une temperature de 45°C suivant les prescriptions du fournisseur. 
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2) - Utilisation des cosmides inteqratifs pOS7001 et replicatifs 
POS700R 

5 Construction par queues polvA poIvT 
Principe 

Un vecteur cosmide, ouvert a un site de clonage quelconque, est modifie 
aux extremites 3' en ajoutant un polynucleotide monotone. D'autre part, 
10 I'ADN a doner est modifie aux extremites 3' en ajoutant un 
polynucleotide monotone pouvant s'apparier au precedent. 

L'association vecteur-fragment a doner se fait par ces polynucleotides et 
la sequence cos du vecteur permet I'empaquetage in vitro de I'ADN dans 
15 des capsides de phage Lamda. 

Preparation du vecteur 

Le vecteur utilise est un vecteur autoreplicatif chez E. coli et integratif 
20 chez Streptomyces. 

Pour £. co//, la selection se fait sur la resistance a rampicilline et pour 
Streptomyces, elle se fait sur la resistance a Thygromycine . 
Le cosmide est ouvert a Tun des 2 sites possibles (BamHI ou Hindlll) et 
25 les extremites 3' sont rallongees par du polyA avec de la terminate 
transferase dans les conditions ou le fournisseur de I'enzyme prevoit 
I'addition de 50 a 100 nucleotides. 

Preparation de I'ADN a inserer . 

30 

Les extremites 3' de I'ADN sont rallongees par du polyT avec de la 
terminate transferase dans les conditions fournissant un allongement 
comparable a celui du vecteur. Dans les conditions experimentales 
decrites par le fabricant les queues polyA polyT sont longues de 30 a 70 
35 bases 
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Assemblage des molecules et encapsidation in vitro . 

Pour I'assemblage des molecules, on melange une molecule de vecteur 
5 pour une molecule d'ADN insere. La concentration de I'ADN en masse 
est de 500 pg.ml" 1 . 

Le melange est encapside et Tefficacite de transfection depend de la 
souche utilisee comme receptrice et de I'ADN insere : nulle avec I'ADN 
test et la souche DH5cc, I'efficacite est comparable pour les souches 
10 SURE et DH10B ; a ('extraction le rendement en ADN est cependant 
plus eleve avec la souche DH10B. 

Construction par dephosphorylation 

15 L'ADN du sol est mis en bouts francs par elimination des sequences 3* 
sortantes et remplissage des sequences 5' sortantes. Cette operation est 
faite avec : enzyme de Klenow, T4 polymerase, les 4 nucleotides 
triphosphates. Le vecteur cosmidique est digere par BamHI, puis traite 
par I'enzyme de Klenow pour le rendre bout franc puis dephosphoryle 

20 pour eviter qu'il ne se referme sur lui meme. Apres ligation, le melange 
est encapside et transfecte comme precedemment decrit. 

3) : Utilisation des pBAC 
Princtpe , 

25 

Le plasmide pBAC conjugatif et integratif possede les sites Hindlll et Nsil 
comme sites de clonage. L'insertion d'une sequence d'ADN a ces sites 
inactive le represseur CI du phage Lambda qui controle Texpression du 
gene de la resistance a la tetracycline. L'inactivation du represseur rend 
30 done la cellule resistante a cet antibiotique (Spg.ml 1 ). Le clonage a ces 
sites est facilite par la modification du vecteur et la preparation de I'ADN 
a doner. 
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Preparation du vecteur. Exemple Hindlll 

Pour que le vecteur ne se referme pas sur lui-meme, le site Hind III est 
5 modifie : la premiere base (A) est remise en place pour former une 
sequence 5' sortante, qui ne peut pas s'apparier avec ses semblables. 
Uoperation est effectuee par I'enzyme de Klenow en presence de dATP. 

Le succ6s de ('operation est verifi6 en effectuant une ligation du vecteur 
10 sur lui-meme avant et apres traitement a Tenzyme de Klenow. A quantite 
d'ADN teste identique, on obtient 3000 clones avant traitement et 60 
apres traitement. 

Preparation de 1'ADN (taille comprise entre 100 et 3Q0kb). 
15 Mise en bouts francs de PADN. 

L'ADN est mis en bouts francs par elimination des sequences 3' 
sortantes et remplissage des sequences 5' sortantes. Cette 
operation est faites avec : enzyme de Klenow, T4 polymerase, les 4 
20 nucleotides triphosphates. 

Preparation des extremites. Exemple Hindlll 

L'addition de I'ADN sur le vecteur se fait au moyen d'oligo- 
nucleotides reconnaissant la sequence Hindlll modifiee du vecteur. 

25 lis contiennent des sites de restriction rares pour permettre les 

clonages ulterieurs (Swal ; Notl). cette technique est derivee de celle 
de : Elledge SJ, Mulligan JT, Ramer SW, Spottswood M, Davis RW. 
Proc Natl Acad Sci U S A 1991 Mar 1;88(5):1731-5 
Deux oligonucleotides complementaires sont utilises : 

30 Oligo 1 : 5 , -GCTTATTTAAATATTAATGCGGCCGCCCGGG-3 , 

(SEQ ID N°25) 

Oligo 2 : 5 , -CCCGGGCGGCCGCATTAATATTTAAATA-3 , (SEQ ID 
N°26) 
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lis sont phosphoryles en 5' par la polynucleotide kinase de T4 en 
presence d'ATP, apres leur hybridation. Cette etape de 
phosphorylation peut etre eliminee en utilisant les oligo-nucleotides 
deja phosphoryles. 

5 La ligation de cet adaptateur double brin avec I'ADN a inserer dans 

un vecteur est faite par la ligase de T4 en presence d'un tres grand 
exc6s d'adaptateur (1000 molecules d'adaptateur pour une molecule 
d'ADN a inserer), en 15 heures & 14°C. 

L'exces d'adaptateur est elimine par electrophordse sur un gel 
10 d'agarose et les molecules d'interet sont r6cuperees du gel par 

hydrolyse de celui-ci par de I'agarase ou par electroelution. 

Ligation vecteur- ADN . 

La ligation se fait a 14°C sur 15 heures avec 10 molecules de 
15 vecteur pour une molecule d'insert. 

Transformation . 

La souche r6ceptrice est la souche DH10B. La transformation se fait 
par electroporation. Pour exprimer la resistance a la tetracycline, les 
20 transformants sont incubus a 37 °C pendant 1 heure en milieu sans 

antibiotique. La selection des clones se fait par culture pendant une 
nuit , sur milieu gelose LB additionne de tetracycline a Spg.mr 1 . 

25 Exemple 11 : CONJUGAISON CLONE A CLONE ENTRE E. CPU ET 
STREPTOMYCES 

CONJUGAISON ENTRE E COL/ SOUCHE S17.1 CONTENANT PPM803 ET 
STREPTOMYCES UVIDANS TK 21 

30 

Introduction 

II est possible d'effectuer des conjugaisons entre E. coli et Streptomyces 
(Mazodier et al, 1989). L'adaptation de cette methode en developpant 
35 une technique dite en goutte ou Ton melange 10 pi d'une culture de E. 
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coli contenant un vecteur recombinant a une goutte de S. lividans 
recepteur consiste a realiser une transformation de clone a clone en 
s'assurant qu'a la fin de I'operation toute la banque construite dans E. 
coli est introduite dans S. lividans. Une transformation en vrac amenerait 
5 obligatoirement a une multiplication des clones de Streptomyces 
transformants afm d'etre pratiquement sur que la banque dans E. coli est 
completement representee dans S. lividans. 
De plus cette methode est facilement automatisable. 

10 Essais preliminaires 

Conjugaison entre E. coli souche S17.1 contenant le vecteur pOSV303 
etS. lividans TK21. 

Dans ces conditions, on melange 6 x 10 6 cellules de E. coli avec 2 x 10 6 
15 spores pre-germees de S. lividans dans un volume final de 20 pi. 

Mise au point de la methode 

II est connu que I'ADN extrait de certains actinomycetes est modifie et de 
20 ce fait ne peut etre introduit dans certaines souches de E. coli sans qu'il 
soit restreint. La souche de E. coli DH10B qui accepte ces ADN n'est 
pas capable de transferer a Streptomyces un plasmide ne contenant que 
oriT, et il est done necessaire d'en construire une. II faudrait y introduire 
par integration dans le chromosome un derive de RP4 capable de fournir 
25 en trans toutes les fonctions necessaires pour assurer le transfert des 
clones recombinants contenant I'origine de transfert oriT. 

Exemple 12 : Construction d'une banque cosmidiaue dans E. coli 
et Streptomyces lividans : Clonaae de I'ADN du sol 

30 

L'objectif est la construction d'une librairie d'ADN de grande 
taille issue de I'environnement, sans etape prealable de culture.des 
microorganismes, dans le but d'acceder aux genes metaboliques de 
bacteries (ou de tout autre organisme) que Ton ne sait pas cultiver dans 
35 des conditions standard de laboratoire. 
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La procedure decrite a ete utilisee pour generer une banque 
d'ADN dans Escherichia coli utilisant le cosmide navette E. co//-S. 
lividans pOS700l et de I'ADN extrait et purifie de la fraction bacterienne 

5 d'un sol . Cette derniere methode permet d'obtenir de I'ADN d'une 
grande purete et d'une taille moyenne de 40 kb. Aussi, afin d'eviter pour 
le clonage une digestion partielle de I'ADN extrait, a ete adoptee une 
strategie alternative basee sur I'utilisation de Tenzyme terminale 
tranferase qui permet d'ajouter des queues de polynucleotides aux 

10 extremites 3' de I'ADN et du vecteur 

5 yig d'ADN ont ete extraits de 60 mg de sol de " la Cote Saint 
Andre " selon le protocole d6crit a Texemple 3 et traites avec de la 
terminale transferase (Pharmacia) pour rallonger les extremites 3' avec 
un polynucleotide monotone (poly T) (Exemple 10). 

15 Le cosmide integratif pOS700l est prepare selon le protocole 

B1, Orsay. Apres une etape classique de purification en presence de 
phenol/chloroforme, I'ADN et le vecteur sont assembles en melangeant 
une molecule de vecteur et une molecule d'ADN insere. Le melange est 
ensuite encapside dans les tetes de bacteriophages lambda (kit 

20 Amersham) qui servent £ transfecter E. coli DH10B. Les cellules 
transferees sont ensuite ensemencees sur milieu LB agar en presence 
d'ampicilline pour selection des recombinants resistants a cet 
antibiotique. 

25 Une banque d'environ 5000 clones d'E. coli resistants a 

I'ampicilline a 6te obtenue. Chaque clone a ete ensemence en milieu 
LB ou TB + ampicilline dans un puits de microplaque (96 puits) et 
conserve a -80°C . 

30 La sequence aux sites d'insertions des fragments du sol dans le vecteur, 
pOS700l, generes pendant la construction de la banque a ete analysee. 
Pour cela 17 cosmides de la banques ont ete purifie et sequence avec 
une amorce, seq.5' CCGCGAATTCTCATGTTTGACCG 3\ qui hybride 
entre les site BamHI et le site de clonage Hindlll presente dans le 

35 vecteur. 



3DOCID: <WO 014O497A2_l_> 



WO 01/4(1497 



116 



PCT/FR00/03311 



Les sequences obtenues ont permis d'estimer que la longueur des 
queues homopolymeriques aux points de jonctions est tres variable, 
entre 13 et 60 poly-dA/dT. Au-dela des queues, les sequences des 
5 fragments du sol ainsi generees possedent un pourcentage en G+C 
entre 53 et 70 %. Des pourcentages si eleves etaient inattendus, mais 
des resultas similaires ont ete deja reportes sur des preparation brut 
d'ADN a partir de sol (Chatzinotas A. et a/., 1998). 

10 Une strategie de " pooling " de 48 ou 96 clones a ete utilisee 

pour I'analyse de la richesse microbienne et metabolique. L'ADN 
cosmidique extrait a partir de ces " pools " de clones a ete utilise ensuite 
pour realiser des experiences de PCR ou d'hybridation. 

15 

Exemple 13 : D iversite de I'ADN ribosomique 16S au sein de I'ADN 
clone. 

a) Materiels et methodes 

20 Les cosmides de la banque sont extraits a partir de pools de 

clones par lyse alcaline puis sont purifies sur gradient de chlorure de 
cesium, afin de prelever la bande d'ADN cosmidique sous forme super- 
enroulee et dans le but d'eliminer tout ADN chromosomique 
d'Escherichia co/i pouvant interferer dans I'etude. 

25 Apres linearisation des cosmides par action de la nuclease S1 

(50 unites, 30 minutes a 37°C), les sequences d'ADNr 16S contenues 
dans les pools de clones sont amplifiees dans les conditions standard 
d'amplification, a partir des amorces universelles 63f (5- 
CAGGCCTAACACATGCAAGTC-3') et 1387r (5*- 

30 GGGCGGWGTGTACAAGGC-3') definies par MARCHESI et al.(1998). 
Les produits d'amplification d'environ 1.5 kilobases sont purifies a partir 
du kit Qiaquik gel extraction (Qiagen) puis directement clones dans le 
vecteur pCR II (Invitrogen) chez Escherichia coli TOP10, selon les 
instructions du fabricant. L'insert est alors amplifie a I'aide des amorces 

35 M13 Forward et M13 reverse specifiques au site de clonage du vecteur 
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pCR II. Les produits d'amplification de taille attendue (environ 1,7 kb) 
sont analyses par RFLP (Restriction Fragment Length Polymorphism) a 
I'aide des enzymes Cfol, Mspl et BstUI (0,1 unites) afin de selectionner 
les clones a sequencer. Les profits de restriction obtenus sont separes 
5 sur gel d'agarose Metaphore 2.5% (FMC Products) contenant 0,4 mg de 
bromure d*6thidium par ml. 

Les sequences d'ADNr 16S sont alors determinees directement 
en utilisant les produits PCR purifies par le kit " Qiaquick gel extraction " 
a I'aide des amorces de sequencage definies par Normand (1995). Les 

10 analyses phylogenetiques sont obtenues en comparant les sequences 
avec les sequences d'ADNr 16S procaryotes rassemblees dans la base 
de donnees Ribosomal Database Project (RDP), version 7,0 MAI DAK et 
al.(1999) grace au programme SIMILARITY MATCH, permettant 
d'obtenir les valeurs de similarite par rapport aux sequences de la base 

15 de donnees. 

b) Resultats 

Pour determiner la diversite phylogenetique representee dans 
la banque, 47 sequences du gene ARNr16S ont ete isolees a partir de 
20 pools de 288 clones et ont ete s6quenc6es dans leur quasi-totalite. Les 
resultats sont rapportes dans le tableau 7. 



L'analyse des sequences par interrogations des bases de 
donnees revele que la majorite des sequences (>61%) pr^sentent des 

25 pourcentages de similarity inferieurs ou egaux a 95% avec des especes 
bacteriennes identifies (tableau 7). Sur les 47 sequences analysees, 28 
sequences ont pour plus proches voisins des bacteries non cultivees, 
dont les sequences ont ete directement issues d'ADN extrait de 
I'environnement. La majorite de ces sequences presentent par ailleurs 

30 des pourcentages de similarite tres faibles (88-95%), 17 sequences sur 
28 different ainsi de plus de 5% par rapport a leurs voisins les plus 
proches. 

Parmi les sequences pouvant etre classees dans un groupe 
phyletique, une majorite de sequences appartiennent a la sous classe a 
35 des proteobacteries (18 sequences avec un pourcentage de similarite 
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compris entre 89 et 99%). Un second groupe de sequences est 
represents par la sous classe g des proteobacteries, comprenant 9 
sequences dont les pourcentages de similarity varient entre 84 et 99%). 
Les groupes des b-proteobacteries, d-proteobacteries, firmicutes a bas 
5 G+C% et a haut G+C% comprennent respectivement 1, 4, 3 et 5 
sequences. Seule une sequence n'a pu etre classee au sein des grands 
groupes taxonomiques bacteriens definis : la sequence a22.1(19), son 
plus proche voisin Aerothermobacter marianas (avec une similarity de 
89%) etant lui meme une souche isolee de Tenvironnement marin et non 
10 classifiee a I'heure actuelle.Enfin, 6 sequences peuvent etre classees au 
sein du groupe des Acidobacterium/ Holophaga. Ce groupe presente la 
particularity de n'etre represents que par deux bacteries cultivees 
Acidobacterium capsulatum et Holophaga foetida, I'ensemble de ce 
groupe etant compose par des bacteries dont seul le gene ARNM6S a 
15 ete detecte par amplification et clonage a partir d'ADN extrait 
d'echantillon de I'environnement (principalement de sol), Ludwig et al 
(1997). Les faibles valeurs de similarity entre les differentes sequences 
composant ce groupe laisse presager une grande hetyrogynyite et 
diversity au sein de ce groupe. 
20 L'ensemble des resultats est represente sur le tableau 7. 

Ces resultats montrent que les sequences contenues dans la 
banque cosmidique proviendraient de micro-organismes non seulement 
diversifies phylogenetiquement mais surtout de micro-organismes 
n'ayant jamais ete isoles jusqu'a ce jour. 
25 Les rysultats du sequencage des ADN amplifiys ont permis 

d'etablir un arbre phylogenetique des organismes presents dans 
I'echantillon de sol dont les sequences caracterisees sont originates. 

L'arbre phylogenytique represente a la figure 7 a ete realise a 
30 partir de I'alignement des sequences par le logiciel MASE (Faulner et 
Jurak, 1988) etcorrige par la methode des 2 parametres de Kimura 
(1980), et a I'aide de I'algorithme Neighbour Joining (Saitou et Nei 1987). 
L'analyse phylogenetique a permis de comparer les sequences ADNr 
16S donees dans la banque d'ADN du sol, avec les sequences d'ADNr 
35 16S procaryotes rassemblees dans les bases de donnees Ribosomal 
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Database Project (RDP), (version 7.0, programme SIMILARITY-MATCH, 
Maidak et al 1999), et dans la base GenBank grace au logicel BLAST 
2.0 (Atschul etal, 1997). 

5 

Exemple 14 : Preselection genetique de la banaue pour revaluation 
de la richesse metaboliaue 

Pour caracteriser la banque obtenue en terme de diversite 
io metabolique et identifier les clones contenant des inserts portant des 
genes pouvant etre impliques dans des voies de biosynthese, il a ete 
developpe selon I'invention des techniques de criblage genetique basees 
sur des methodes PCR afin de detecter et d'identifier des genes PKS de 
type I. 

15 

1 Souches bacteriennes, plasmides et conditions de culture 

S. coelicolor ATCC101478, S. ambofaciens NRRL2420, S. 
lactamandurans ATCC27382, S. rimosus ATCC1 09610, B. Subtilis 

20 ATCC6633 et B. licheniformis THE 1856 (collection RPR) ont ete utilises 
comme sources d'ADN pour les experiences de PCR. S. lividans TK24 
est la souche h6te utilisee pour le cosmide navette POSI700. 

Pour la preparation dADN genomique, de suspensions de 
spores, de protoplastes et pour la transformation de S. lividans, on a 

25 suivi les protocoles standard decrits dans Hopwood et a/.(1 986). 

Escherichia coli Top10 (INVITROGEN) a ete utilise comme note pour le 
clonage des produits PCR et E. coli Sure (STRATAGENE) a ete utilise 
comme hote pour le cosmide navette pOS700l. Les conditions de culture 
de E. coli, la preparation de plasmides, la digestion de I'ADN, 

30 I'electrophorese sur gel d'agarose ont ete realisees suivant les 
procedures standard (Sambroock et al., 1996). 

2. Amorces PCR: 

Les couples d'amorces a1-a2 et b1-b2 ont ete definis par 
35 l equipe de N. Bamas-Jacques et leur utilisation a ete optimisee pour le 
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criblage de I'ADN des souches pures et de la banque du sol pour la 
recherche de genes codant PKSI) 



Tableau 8 : 

5 Amorces PCR homoloques aux genes PKSI utiiisees pour le 

criblage de la banque. . 



a1 (+) 


5" CCSCAGSAGCGCSTSTTSCTSGA 3" 


a2 (-) 


5* GTSCCSGTSCCGTGSGTSTCSA 3' 


b1 


5' CCSCAGSAGCGCSTSCTSCTSGA 3' 


b2 


5' GTSCCSGTSCCGTGSGCCTCSA 3' 



io Conditions d'amplification : 

Pour la recherche de PKS I a partir de I'ADN de souches pures, 
le melange d'amplification contenait : dans un volume final de 50 ul, 
entre 50 et 150 ng d'ADN genomique, 200 uM de dNTP, 5mM de MgCI 2 

15 final, 7% de DMSO, tampon 1x Appligene, 0,4 uM de chaque primer et 
2.5U de Taq Polymerase Appligene. Les conditions d'amplification 
utiiisees sont : denaturation a 95°C pendant 2 minutes, hybridation a 
65°C pendant 1 minute, elongation a 72°C pendant 1 minute, pour le 
premier cycle, suivi par 30 cycles ou la temperature est diminuee 

20 jusqu'a 58°C comme decrit dans K. Seow et a/., 1997. L'etape 
d'extension finale s'effectue a 72°C pendant 10 minutes. 

Pour la recherche de PKS I a partir de I'ADN de la banque, les 
conditions PCR sont les memes que ci-dessus pour le couple a1-a2 en 
25 utilisant entre 100 et 500 ng de cosmide extrait de pools de 48 clones. 
Pour le couple d'amorces b1-b2 , 500ng de cosmides issus de pools de 
96 clones ont ete utilises. Le melange d'amplification contenait 200 uM 
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de dNTP, 2,5mM de MgCI 2 final. 7% de DMSO, tampon 1x Quiagen, 0,4 
uM de chaque primer et 2.5U de Taq polymerase Hot-start (Qiagen). Les 
conditions d'amplification utilisees sont : denaturation 15' a 95°C suivie 
par 30 cycles : 1' de denaturation a 95°C + 1* d'hybridation a 65°C pour 
5 le premier cycle et 62°C pour les autres cycles, 1' d'elongation a 72°C, 
etape d'extension finale de 10' a 72°C. 

L'identification des clones positifs a partir des pools de 48 ou 96 
clones est effectuee a partir des repliques des microplaques meres 
correspondantes sur milieu solide ou toute autre methode standard de 
10 replication. 

3 Sous-clonaqe et sequencaae 

Les produits PCR des clones identifies ont ete sequences selon le 

15 protocole suivant : 

Les fragments sont purifies sur gel d'agarose (Gel Extraction Kit 
(Qiagen))et clones dans E.coli TOP 10 (Invitrogen) a I'aide du kit TOPO 
TA cloning kit (Invitrogen). L'ADN plasmidique de sous-clones est extrait 
par lyse alcaline sur un Biorobot (Qiagen) et dialyse durant 2 h sur 

20 membrane VS 0,025um (Millipore). Les echantillons sont sequences 
avec les amorces M13 " Universal " et " Reverse " sur le sequenceur ABI 
377 96( PERKIN ELMER). 

4) Resultats 

25 

Definition et validation des amorces PCR 

Deux regions tres conservees de PKS du type I d'actinomycetes, 
comprenant le site actif de I'enzyme, ont ete ciblees pour ('amplification 
30 de genes homologues avec des amorces degenerees. Ces deux regions 
correspondent aux sequences PQQR(L)(L)LE et VE(A)HGTGT 
respectivement. 

Des amorces (tableau 8) ont ete testees avec I'ADN de souches 
35 productrices ou non de macrolides: Streptomyces coelicolor, 
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Streptomyces ambofaciens, producteur de spiramycine, et 
Saccharopolyspora erythraea, producteur de I'erythromycine. Quelles 
que soient les amorces utilisees, des bandes representant des 
fragments d'environ 700 pb et correspondant a la longueur du fragment 
5 attendu, ont 6te obtenues avec toutes les souches. 

Ces resultats demontrent la specificite des amorces a et b pour 
les genes PKS I de souches productrices ou de genes silencieux chez 
S. coelicolor. 

Le sequencage des produits PCR obtenus avec le couple 
10 d'amorces a1-a2 a permis d'identifier, a partir de la souche S. 
ambofaciens, la sequence d'un gene KS deja decrite (Demande de 
brevet europeen n° EP0791656) comme appartenant a la voie de 
biosynthese du plantenolide, precurseur macrolidique de la spiramycine, 
et deux sequences jamais decrites, Stramb 9 et Stramb12, (voir liste 
15 sequences). 

En ce qui concerne, S. erythraea, la methode de criblage a 
permis ('identification d'une sequence de KS (sacery17) identique a 
celle du KS du module 1 deja publiee dans Genebank (Numero d'acces 
20 M63677), codant pour la synthetase 1 (DEBS1) du 6- 
deoxyerythronolide B. Une autre sequence non correlee a la voie de 
biosynthese de I'erythromycine a ete identifiee et il s'agit de la sequence 
SEQ ID N° 32. 

25 Conclusion 

Une methode pour analyser la presence de genes codant pour les 
PKS du type I par PCR a partir de differents micro-organismes a ete 
mise au point. La structure tres conservee du domaine de la keto- 
synthetase du type I a permis de realiser une methode PCR basee sur 
30 I'utilisation d'amorces degenerees biaisees en GC pour le choix des 
codons. 

Cette approche montre la possibility d'identifier des genes ou 
clusters impliques dans la voie de biosynthese des polyketides du type I. 
Le clonage de ces genes permet la creation d'une collection qui pourra 
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ensuite etre utilises pour construire des hybrides polyketides. Le meme 
principe peut etre applique a d'autres classes d'antibiotiques. 

Les resultats obtenus ici montrent aussi la presence de genes 
pouvant appartenir a des clusters silencieux (SEQ ID N° 30 a 32). 

La presence de clusters silencieux a ete deja documentee dans 
S. lividans et leurs expressions sont declenchees par des regulateurs 
specifiques ou pleiotropiques (Horinouchi et al. ;Umeyama et al. 1996) 
Ces resultats suggerent que la detection de genes appartenant a des 
voies dites silencieuses codent en realite pour des enzymes actives 
capable de diriger, en association avec les autres enzymes specifiques 
de la voie, les etapes enzymatiques necessaires pour la synthese des 
metabolites secondares. 

Criblaqe de la banaue 

Le criblage a ete effectue dans les conditions decrites dans la 
section Materiels et Methodes en utilisant les couples d'amorces 
validees a partir de souches productrices. 

En presence du couple d'amorces a1-a2 , la taille des produits 
PCR obtenus a partir de I'ADN cosmidique extrait de pools de 48 ou 96 
clones etait d'environ 700 bp, done en accord avec les resultats 
attendus. 

L'intensite des bandes obtenues etait variable, mais une seule 
bande d'amplification etait presente pour chaque pool d'ADN cible. 

Dans ces conditions, 8 groupes d'ADN cible ont ete detectes, 
correspondant a 9 clones positifs apres dereplication. 
Le criblage effectue avec le second couple d'amorces, b1-b2, a donne 
des resultats d'amplification moins specifiques puisque de nombreuses 
bandes satellites etaient observees a cote de la bande de 700 bp. 
Neanmoins, 9 groupes d'ADN cible ont ete detectes, correspondant a 14 
clones positifs apres dereplication a partir de ces clones positifs, I'ADN a 
ete extrait pour les etapes de sequencage et de transformation de .S. 
lividans. 
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Analyse des cosmides 

La digestion des cosmides identifies par PCR avec I'enzyme 
Dral, reconnaissant un site riche en AT, libdre un fragment sup^rieur £ 
5 23 kb (figure 22). Ceci suggere que la methode PCR cible 
preferentiellement I'ADN du so! contenant un haut pourcentage en G+C. 
Ce resultat est la consequence de la degenerescence des amorces 
utilisees, biaisees en GC pour le choix des codons. Les inserts, comme 
attendu dans le cas de cosmides, ont une taille superieure a 23 kb, sauf 
10 dans un cas ( clone a9B12), ce qui pourrait traduire une certaine 
instability des cosmides. D'autre part, parmi tous les clones 
selectionnes, seulement deux d'entre eux, GS.F1 et GS.G1 1, ont montre 
le meme profil de restriction indiquant un faible taux de redondance dans 
la banque. 

15 Les cosmides selectionnes ont ete transferees dans 

Streptomyces lividans par transformation de protoplastes en presence 
de PEG 1000. L'efficacite de transformation varie entre 30 et 1000 
transformants par jjg d'ADN cosmidique utilise. 

20 Sequencaqe et analyse phvtogenettque des genes PKS I du sol 

La methode de PCR mise a point sur les souches pures a et§ 
utilisee comme decrite sur les cosmides de la banque et 24 clones ont 
ainsi ete identifies. 

25 Les produits de PCR d'environ 700 bp obtenus a partir de TADN de deux 
pools (48 clones) et de 8 clones uniques, ont ete clones, apres 
purification sur gel d'agarose . et sequences. Cela a permis 
('identification de 11 sequences. 

30 Ualignement des sequences proteiques deduites PKSs I du sol 

avec d'autres PKSs I presentes dans differents micro-organismes 
(figure 24) montre la presence d'une region tres conservee qui 
correspond a la region consensus du site active de la b-ketoacyl 
synthetase. 
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L'analyse des sequences obtenues avec la methode 
" Codonpreference " (Gribskov et a/., 1984 ; Bibb et a/., 1984) a revele ia 
presence d'un fort biais dans I'usage des codons riches en G+C dans 
une seule phase de lecture. Les proteines deduites selon cette phase 
5 de lecture montrent une forte similarite avec des KSs du type I connus ( 
programme Blast). En particulier, la similarite entre les sequences de 
KSs du sol et des KSs du cluster de I'erythromycine est d'environ 53%. 

Apres dereplication d'un pool et identification du clone unique, la 
sequence du produit PCR obtenu a partir de ce clone est identique a 
10 celle du pool ce qui confirme la fiabilite de la methode utilisee. 

L'analyse de la sequence du produit PCR d'un clone a permis 
Identification probable de 3 genes KSI differents. Une de ces 
sequences (SEQ ID N° 34) a une similarite de 98,7% avec la sequence 
d'un autre pool, suggerant qu'elles codent pour la meme enzyme. Les 
15 deux autres sequences sont differentes mais fortement homologues. 

Ici, il est decrit pour la premiere fois le clonage et I'identification 
dans une banque d'ADN du sol de voies de biosynthese de metabolites 
secondaires contenant des genes codant des KS du type I. 

Le pourcentage eleve en G+C des sequences du sol suggere 
20 qu'elles puissent deriver de genomes ayant un usage des codons 
similaire a ceux d'actinomycetes. 

Meme si les donnees disponibles dans la litterature sont reduites, 
on sait que les genes codant des PKS du type I sont tres diversifies de 
par leur organisation physique dans le genome, la taille et le nombre de 
25 modules contenus dans chaque gene. 

La presence de plusieurs domaines provenant d'un seul clone est 
une confirmation de leur appartenance a des clusters de polyketides 
assymetriques. Dans un seul cas, deux clones semblent former un 
contigue puisqu'ils partagent la meme sequence pour le domaine KS. 
30 La taille des regions genetiques impliquees dans la synthese des 

PKSI varie entre quelques kb pour la penicilline a environ 120 kb pour la 
rapamycine. La dimension des inserts cosmidiques peut done ne pas 
etre suffisante pour I'expression des clusters les plus complexes. 

Des genes codant pour des PKSs I, capables de travailler de 
35 facon iterative comme les PKS II et de controler la synthese de 



3DOCID: <WO 0140497A2J_> 



WO 01/40497 PCT/FROO/0331 1 

126 



polyketides aromatiques, ont ete decrits (Jae-Hyuk et al., 1995). L'etude 
des clusters des PKSs I du sol pourrait apporter encore des nouveautes 
dans ce domaine. 

5 5. Identification de 6 genes codant des polyketides 

synthases . 

On poursuivant le criblage de la banque de cosmides selon les 
protocoles decrits dans le present exemple, les inventeurs ont identifies 
io un clone de cosmide contenant un insert de 34071 pb contenant 
plusieurs cadres ouverts de lecture codant pour des polypeptides du 
type polyketide synthase. 

Plus precisement, le cosmide ainsi identifie par criblage de la 
banque contient six cadres ouverts de lecture codant pour des 
15 polypeptides polyketide synthase ou pour des polypeptides fortement 
apparentes, des peptides synthase non ribosomiques. Une carte 
detaillee de ce cosmide est representee a la figure 36. 

La sequence nucleotidique complete du cosmide constitue la 
sequence SEQ ID N°113 du listage de sequences. L'insert d'ADN 
20 contenu dans la sequence SEQ ID N°113 constitue la sequence 
nucleotidique complementaire (brin - ) de la sequence nucleotidique 
codant pour les differents polyketides synthases. 

La sequence nucleotidique de l'insert d'ADN contenue dans le 
cosmide de la figure 36 qui comprend les cadres de lecture ouverts 
25 codant pour les polypeptides polyketides synthases (brin +) est 
schematisee sur la figure 37 et constitue la sequence SEQ ID N°114 du 
listage de sequences. 

De plus, une carte detaillee des differents cadres de lecture 
ouverts contenus dans l'insert d'ADN de ce cosmide est representee a (a 
30 figure 37. 

Les caracteristiques des sequences nucleotidiques comprenant 
des cadres ouverts de lecture contenus dans l'insert d'ADN de ce 
cosmide sont detaillees ci-apres. 
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Sequence ORF1 

La sequence orfl comprend un cadre ouvert de lecture partielle 
d'une longueur de 4615 nucleotides. Cette sequence constitue la 
5 sequence SEQ ID N°115, qui debute au nucleotide en position 1 et se 
termine au nucleotide en position 4615 de la sequence SEQ ID N°114. 

La sequence SEQ ID N°115 code pour le polypeptide ORF1 de 
1537 acides amines, ce polypeptide constituant la sequence SEQ ID 
N°121. 

io Le polypeptide de sequence SEQ ID N°121 est apparente aux 

peptides synthases non ribosomiques. Ce polypeptide possede un degr6 
d'identite en acides amines de 37% avec le peptide synthase de 
Anabaena sp.90 reference sous le numero d'acces « emb 
CACOI 604.1 » dans la base de donnees Genbank. 

15 

Sequence ORF2 

La sequence nucleotidique orf2 a une longueur de 8301 
nucleotides et constitue la sequence SEQ ID N°116, qui debute au 
20 nucleotide en position 4633 et se termine au nucleotide en position 
12933 de la sequence SEQ ID N°114. 

La sequence ORF2 code pour le peptide ORF2 d'une longueur 
de 2766 acides amines, ce polypeptide constituant la sequence SEQ ID 
N°122. 

25 Le polypeptide de sequence SEQ ID N°122 possede une 

identite de sequence en acides amines de 41% avec la sequence MtaD 
de Stigmatella aurantiaca referencee sous le numero d'acces « gb AAF 
19812.1 » de la base de donnees GENBANK. 

Le polypeptide ORF2 constitue une polyketide synthase. 

30 

Sequence ORF3 

La sequence nucleotidique orf3 a une longueur de 5292 
nucleotides et constitue la sequence SEQ ID N°117. La sequence SEQ 
35 ID N°1 17 correspond a la sequence qui debute au nucleotide en position 
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12936 et qui se termine au nucleotide en position 18227 de la sequence 
SEQ ID N°114. 

La sequence nucleotidique SEQ ID N°117 code pour le 
polypeptide polyketide synthase ORF3 de 1763 acides amines, ce 
polypeptide constituant la sequence SEQ ID N°123 selon Invention. 

Le polypeptide ORF3 de sequence SEQ ID N°123 possede une 
identite de 42% en acides amines avec la sequence MtaB de Stigmatella 
aurantiaca referencee sous le n° d'acces « gb AAF 19810.1 » de la base 
de donnees GENBANK. 

Sequence ORF4 



La sequence nucleotidique orf4 a une longueur de 6462 
nucleotides et constitue la sequence SEQ ID N°1 18 selon I'invention. 
15 La sequence nucleotidique SEQ ID N°118 correspond a la 

sequence debutant au nucleotide en position 18224 et se terminant au 
nucleotide en position 24685 de la sequence nucleotidique SEQ ID 
N°114. 

La sequence nucleotidique SEQ ID N°118 code pour le 
20 polypeptide polyketide synthase ORF4 de 2153 acides amines, ce 
polypeptide constituant la sequence SEQ ID N°124 selon I'invention. 

Le polypeptide ORF4 de sequence SEQ ID N°124 possede une 
identite de sequence en acides amines de 46% avec la sequence epoD 
de Sorangium cellulosum referencee sous le n° d'acces « gb 
25 AAF62883.1 de la base de donnees GENBANK. 



Sequence ORFS 



La sequence nucleotidique orf5 a une longueur de 5088 
nucleotides et constitue la sequence SEQ ID N°1 19 selon I'invention. 

La sequence SEQ ID N°119 correspond a la sequence 
. debutant au nucleotide en position 24682 et se terminant au nucleotide 
en position 29769 de la sequence nucleotidique SEQ ID N°114. 
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La sequence nucleotidique SEQ ID N°119 code pour le 
polypeptide polyketide synthase ORF5 de 1695 acides amines, ce 
polypeptide constituant la sequence SEQ ID N°125 selon Invention. 

Le polypeptide polyketide synthase ORF5 de sequence SEQ ID 
5 N°125 possede une identite en acides amines de 43% avec la sequence 
epod de Sorangium celtulosium reference sous le n° d'acces « gb AAF 
62883.1 » de la base de donnees GENBANK. 

Sequence ORF6 

10 

La sequence nucleotidique orf6 a une longueur de 4306 
nucleotides, et constitue la sequence SEQ ID N°120 selon I'invention. La 
sequence nucleotidique SEQ ID N°120 correspond a la sequence 
debutant au nucleotide en position 29766 et se terminant au nucleotide 

15 en position 34071 de la sequence SEQ ID ID N°1 14. 

La sequence SEQ ID N°120 contient un cadre ouvert de lecture 
partielle codant pour le polypeptide ORF6 de 1434 acides amines du 
type polyketide synthase, ce polypeptide constituant la sequence SEQ 
ID N°1 26 selon I'invention. 

20 Le polypeptide de sequence SEQ ID N°126 possede une 

identite en acides amines de 43% avec la sequence epoD de Sorangium 
cellulosum referencee sous le numero d'acces « gb AAF 62883.1 » de la 
base de donnees GENBANK. 

25 EXEMPLE 15: Const ruction de vecteurs navettes de type BAC 
inteqratifs chez Streptomvces 

Construction de vecteurs navettes du type BAC intearatifs et 
coniuqatifs chez Streptomvces 

30 

15.1 Construction du vecteur pMBD-1 

Le vecteur BAC pMBD-1 a ete obtenu selon les etapes 
suivantes: 
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Eta P e 1: L e vecteur pOSVO10 a ete soumis a une digestion 
par les enzymes PsTI et BstZ17l afin d'obtenir un fragment nucleotidique 
de 6,3 kb. 

Eta P e 2: L © vecteur pDNR-1 a ete digere par les enzymes Pstl 
et Pvull afin d'obtenir un fragment nucleotidique de 4,145 kb. 

Etape 3: Le fragment nucleotidique de 6,3 kb provenant du 
vecteur pOSV017 a ete fusionne par ligation au fragment de 4,15 kb 
provenant du vecteur pDNR-1, afin de produire le vecteur pMBD-1, 
comme cela est illustre a la figure 30. 

15.2 Construction du vecteur pMBD-2 

Le vecteur pMBD-2 est un vecteur du type BAC contenant une 
boite integrative « <t»c31 int-Qhyg ». 

(f>c31 est un phage tempere a spectre d'hdte large dont le site 
d'attachement (attP) est bien localise. Le fragment <J>c31 int est le 
fragment minimal de I'actinophage <j>c31 capable d'induire ('integration 
d'un plasmide dans le chromosome de Streptomyces Lividans. 

Qhyg est un derive de I'interposon Q capable de conferer la 
resistance a I'hygromicine chez E.coli et S.Lividans. 

Des vecteurs BAC contenant le systeme d'integration 4>c31 sont 
decrits par SOSIO et al. (2000) et dans la demande PCT n°99 6734 
publiee le 29 Decembre 1999. 

Le vecteur BAC pmBD-2 a ete construit selon les etapes 
suivantes: 

Eta P e 1 Construction d'une boite integrative <})c31int Qhyg 
dans un plasmide multicopies de E.coli. 

On a tout d'abord amplifie le fragment 4>c31int a partir du 
plasmide pOJ436 a I'aide du couple d'amorces suivant: 

- L'amorce EV<j>c31l (SEQ ID N°109) (qui permet d'introduire un 
site EcoRV a I'extremite 5' de la sequence <t>c31) et l'amorce BII((.c31F 
(SEQ ID N°110) (qui permet I'introduction d'un site BgLII a I'extremite 3' 
de la sequence <j>c31). 
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Le fragment fihyg a ete obtenu par digestion a I'aide de 
I'enzyme BamHI du plasmide pHP45 Qhyg decrit par BLONDELET- 
ROUAULT(1997). 

Puis la boTte integrative <(.c31 int-Qhyg a ete donee dans le 
vecteur pMCS5 digere par les enzymes Bglll et EcoRV. 

Etape 2: Construction du vecteur dMBD-2 

Le chromosome artificiel bacterien pBAce3.6 decrit par 
FRENGEN et al. (1999) a ete digere par I'enzyme Nhel puis traite par 
I'enzyme Eco polymerase. 

Puis, le vecteur pMCS5 *c31 int-Qhyg a ete digere par les 
enzymes SnaBI et EcoRV afin de recuperer la boTte integrative. 

La carte detaillee du vecteur pMBD2 est representee a la figure 



15.3 Construction du vecteur pMBD-3. 

Le vecteur pMBD-3 est un vecteur integratif (<j>c31 int) et 
conjuguatif (OriT) du type BAC, qui comprend le marqueur de selection 
^hyg. 

La carte du vecteur pMBD-3 ainsi que son precede de 
construction sont illustres a la figure 31. 

Le vecteur pMBD-3 a ete obtenu en amplifiant le gene OriT a 
partir du plasmide pOJ436 a I'aide du couple d'amorces de sequences 
SEQ ID N° 111 et SEQ ID N°112 qui contiennent des sites de restriction 
pad. 

Le fragment nucleotidique amplifie a I'aide des amorces SEQ 
ID N°111 et SEQ ID N°112 a ete clone dans le vecteur pMBD2 
prealablement digere par I'enzyme Pad. Le schema de construction du 
vecteur pMBD-3 est illustre a la figure 31. 



WO 01/40497 



132 



PCT/FR00/03311 



15.4 Construction du vecteur pMBP-4 

La carte detaillee du vecteur pMBD-4 est representee a la 

figure 32. 

5 Le vecteur pMBD4 a ete obtenu en clonant la boTte integrative 

(|>c31 int-Qhyg dans le vecteur pCYTAC2. 

15.5 Construction du vecteur pMBD-5 

io Le schema de construction du vecteur pMBD-5 est illustre a la 

figure 33. 

Le vecteur pMBD-5 a et6 construit par recombinaison du 
fragment nucleotidique compris entre les deux sites loxP du vecteur 
pMBD-1 illustre a la figure 33 avec le site loxp contenu dans le vecteur 
15 BAC designs pBTP3. une carte detaillee du plasmide pBTP3 6tant 
representee £ la figure 34. 

15.6 Construction du vecteur pMBD-6 

20 Le vecteur pMBD-6 a ete construit en recombinant le fragment 

nucleotidique compris entre les deux sites loxP du vecteur pMBD-1 au 
niveau du site loxP du vecteur BAC pBeloBad 1 , comme represents sur 
la figure 35. 

25 



J)140497A2J_> 



WO 01/40497 



PCT/FR00/0331 



133 



(0 

co 



3 

m 

o 

CO 

CO 
<D 
"O 
(0 

o 

3 
O" 

*^ 
CO 



w .X CD 

< 

LU 



CD 
< 



2 
o 

CO 

l. 

CO 

o 



c 

CO 

o 



C 
CO 
0) 



CD 
i2 

o 
2 

0) 
C 
CD 

.5 

2 

a 

E 
co 

CL 

E 
o 
o 

CO 
CD 



o 
co 

3 
TJ 

CD 
D) 
CO 

>% 

O 



CO 

CL 
CO 



Nombre de 
cellules apres 
broyage 3 
(x10 9 /g poids 
sol sec 


2,9(1,3) 
5.4(0,8) 

7.5(1.4) 

4.2(0,6) 

0.5(0,1) 
5,6(0,9) 


Nombre de 
cellules avant 
broyage 
a (x10 9 /g poids 
sol sec 


6.5(0,9) 
7,3(0.6) 

10,0(0,7) 

7,8(1,1) 

1,4(0,4) 
7,5(0,5) 


X 

CL 


CO 0> CD CO CO CO 

in *sr in in t t 



CO 
CD 
O 



CO 

> 

CO 
CO 

.2 
"co 

-CD 



O 
CD 
O) 
C 

2 
o 

CD 



CD 

:<d 
"co 



o 
to 

§ CD 



<D 



JD 
< 



c 
o 

E 



CD O 
I 

2 co ° 

Q. 0} 

CO C 

CD 0> 

■o ^ 

S *= 

CO CO 

.2 J2 

To co 

o c 

o co 

-i -o 



k CD — S 



C 
CO 



-9> 

XI 

co 
to 



8> 



CD 
C 



E 

3 





CM 


CO 




o 


CO 


crT 


CO*" 




co" 




o" 

CO 


CD 


CO 
T — 


O) 






CO 


CM 
CM 


CO 
CM 






CO 
CM 


CO 



CM <r- 
CO CO 



O 

in 



CO 



CM 



o 

CM 



CD 
CO 
3 
0> 

c 
c 
o 

-Q 
CO 

to 

CD 



CD 
CO 

CD 
C 

c 
_g 

co 

CO 
CD 



< < 



X 
=5 
CD 
C 

c 

CO 

CO 

CO 

g 

CD 



CD 
C 

tz 
o 

-Q 
CO 

to 

3 X 

03 3 

CD CD CD 

h- co < 



X 
3 
CD 



jQ 
CO 
to 

s I 

h- < 



«co 



JD 

CD 

£ 2 

CO >s 
3 CD 

< 0- 



.CD 



8 w 

C 

<o 



3* 5> 

£ o 



CD 
3 

e> 

CD 



CD 
O 
C 
CO 



CD 
CL 
3 

_g 

CD 
"O 
CO 

ll O il (3 



CD 
O 

c 

CO 



3^ 
CO 
N 
CO 



CD 
O 

c 

CO 



CD 
O 

c 

CO 



to 

CD 
X> 

E 
o 
Q 



CM 



CO 



in co 



CO 
CD 
CO 
'CD 



CO 

a 

2 
c 

CD 
CO 



5 

CO 

c 
o 

CO 

"> 
.CD 
"O 

co 
II 



50OCID: <WO 0140497A2J_> 



WO 01/40497 



PCT/FR00/033I1 



134 



<D 

Q£ 
O 
Q. 

c 
o 

(0 

o 

t J 

co o 

< 5. » 

1 CO q 

CD .0 *s 
— - w 

CO „c 
T5 

c 
o 

CO 



CO 
<D 

a 
o 
E 
< 



CD 
O 
C 

cd 

a> 
cr 



CO 
'03 

to 

a> 
o 
c 

CD 
3 

Or 
*CD 
CO 



ID in 
CD CD 
CD CO 



03 TO 



CD 
C 

c 

TO 

E 
< 



CD 
£= 

c 

CD 

E 
< 



CD 

"CD 
CD 



CD CD 
O O 



CD 



*<D 
CD 



CD 


CD 


CD 


a> 


CO 




0 


CD 


o> 




T— 




"to 


76 


TO 








CD 


"33 




CD 


2 


2 



TO 
CL 



TO TO 

a. a. 



CD 


CD 


(D 






"D 




3 


-3 




3d 




CD 


CD 


CD 


3=: 






CD 


CD 


CD 


O 


O 


O 



o 
o 

o 

g 

o 
o 
o 
o 



o 
< 
o 
I- 
o 
o 
o 

< 
o 

cd 

E 

cd 
< 



I— 

o o 

. . < o 

CD CD CD 

3 y 



o 



o 

o o 
o 
o 



& < t 

tot 

r\ H- 

o 



o 
o 

o o 

sis 

o 

c5 CD 



cd cd 

CD < 

O CD 

< CD 



O 

O O < 

O 
< 

o 

CD < < 
h- O > 
O H p 
OOP 



6 £ 



o 
o 
o 
< 



& o 

8 I 

o o 



O O O 
P O ^ 



o 
o 
< 



o 
< 



o 
o 



o 
o 
o 
< 
o 
o 
I— 
o 
< 
o 
o 



< 

< H 

O O 

000 

5 1= g 



< 

o 
< 



5 

< 
o 

o o 



o 
< 
o 
I- 
< 
o 
o 
o 
o 
o 
< 
o 



< 

o 



o 
o 



CD 

o 
vr 

T— 

I 

CM 



m cm 

co ^ 

CD 

I I 

CD OJ 
CM 

CD t- 



s 

.^3 



5 



.00 
o 



5? J? ^ 



o 



.co 
o 



CD 
c/> 

l_ 

CD 
> 

3 



CO 
CD 
"l— 
-CD 
O 
TO 
CD 



O 
O 



o 

9> 



£ £ £ 



CO CO 



c: 

CD 
CO 

CD 
0Q 



C 
CD 
CO 

CD 



c 

CD 
co 

o 

CD 



CO CO 

06 06 

XT 

CO CO 

o o 



co 
c: 



CO 

5 



CO 
CO 

co 
o 

co 
c: 



CQ OQ CO CO CO 





CD 


CD 




ide 


ore 


O 
i_ 

O 


ide 


0 


E 


E 


Ul 1 


to 


TO 


CO 


CO 




CM 


0 


CO 



CD 
O 



CD 

O CD 



CO CM 

CO CO 

CL Q_ 

O O 

LL UL 



CD 
O 



O 

E 

CO 

CO CO 
CL CL 05 

o o 

a. la- 



in 

CO CD 



co 



(D 

O CD 

E o 

TO CO 

O t- 

o o 

in m 

a: O 



o o 

E E 

CO CO 

(D N CO 

m in in 

CO co co 

CL CL CL 

OOO 

LL LL LL 



CD 

CO 
CD 
O 

O 

E 

CO 

CO 

CD 



CO 

5 



CO 

Id 

.co 

o 

CD 

OQ 
i_ 

O 
CL 

co 
CD 

CO 

*CD 
£ 

a? 

CO 
Q. 



CO 
CD 
•CD 
CO 

"to 

o 

o ^ 
— *<D 

c c 
o o 

CO c 



CD 

cr 

CO 
CD 

o 
cz 

CD 
3 

cr 

*CD 

co 
co 

CD 

o 



CD 

CO 
CD 
"CD 

c 

£= 

o 

X) 

c 

o 

CO 



o 

CD 
Q. 
CO 

£ 

CO 
CD 

E 

CO 

*c 

CO 

o 

CO 
CD 

to 

CD 

cr 

O 

-CD 
CL 

to 



*Z co ^2 



CO 

a> 
c 

"2 

CO 
OQ 
1 

o 

i— 

O 

TO 

CL 

^CD 

o 

"CD 

■a 

"co 

CD 

co 
c: 

CO 

CD 
T3 
_0) 
-Q 

O 

C 

o 
a> 

-CD 
CO 



8 

ui £ 

CD 
T3 

CO 
CD 



~2L 

a: 
.< 

CD 

-a 

CD 

c 

-CD 
CD 

a> 

u 
3 
CO 

to 
c 
o 

CO 

o 

CL 
CO 
CD 



CD ^ 

3 C 

CT (0 

1 1 

E 0 

o £ 



CD 
co 
to 

CO 

o 



CO 
CD 

o 
c 

CD 
3 

cr 

«CD 

to 



CO 



CO 
CD 



co J= 

a) 0 

-9 "° 

s 'I 

§ ^ 

CO CO 

to £ 



>ISDOCID: <WO 0140497A2_I_> 



WO 01/40497 PCT/FROO/03311 



135 



"E 

ro 

C 

j2 * 



E 
co 



2 

T> 

0) 
'O 
w 

Q. 
CO 

JO 

o 
(0 

CO 

< S 

LU E 
—I -o 
CD o 

ra 

Q. 
'10 



CO 

>< 
0) 



10 

"> 

"O 

+1 

o 
o 

CO 

"o 

<D II 
"D C 

CO - 



o 

Q- 

<D 



a 
< 

c 
to 

CO 
CD 

co 
>» 

CD 



O 

CO 

CO 

II 
c 

Q CO 

< S 

§> CO 

•« 5 

J" o 
c CO 

CO 
0) 

o 
u 

O 

o 

CL 

co 

CD 



CD 
_> 
CD 

0) 
O 

o 
o 

e 

a. 



CD 

in 



CO 



CO 



CM 



CD 

*D) 
O 

a> 
2 

-CD 

_ E 

O 3 

CO z 



9 + 

CM 



CO 
I 



p CNI 

I s - o 



+ 
in 



+ 

CO 

m 



CN 

£2 

CO ^— 
CO CN 



+ 

+ o 
co in ^ 



+ !£2 

oo ^ 

CO 



+ 

CO 
CO 



CO 



^ CN 



* a - 

O) co co 



in ^ 

a ° s 



CN CO 

+ + + 

CN CO O 

in in co 



CN CN 

i i i 

+ + + 

h"- o> CD 

CN CO 



CO 



CO 



CO 



co 

CM 



CN 



c 

CD < 
= ^ ^ 

CO 



^ CO 

16 co g .2 

> «d ra E 
o 
Q 

t- CN CO CO* 



CO 

5 CD <0 a- 
< Q. O O 



CO 

CO 
CL 
O 

= 
75 

2 



CD 
T> 
C 

o 

CO 

iS 
o 

§> 

CO 

CD 
X 

u 
<co 



c 
o 

CO 

*o 
•c 
xs 
>^ 
-c 

CO 

'2 

CL 
CO 

CD 
O 

c 

CD 
O 
CO 

CD 



CL 
CO 

o 



CD 

~o 

CD 
*i_ 
CD 
O) 
CO 

E 
k_ 

CO 
CL 



cr 



o 

CD 
CO 

+ 



3 O 



^ in 

I o 

M E 

-CD O 

c? §" 

E O 

o c 

-C o 

+ 

I— 

O 

CO 



CO 

o 
o 

CO 

+ 
X 



o 

CD 
CO 

'CO 

§> a. 

I 2 

0 o 

•f? 2 

CM c 

U-T O 

c 

CD Ct3 

1 -2 



■5 2 



.2 o 



co • 

o cn 

C CO 

CO JO) 

a « 



CO 



CO 

+ 



3 



CO 

1 - 

" I 

-CD 

<D "O 

1 § 

TO z 

E » 

g i 

CD u 



SOOCID: <WO 0140497A2_L> 



WO 01/40497 



PCT/FROO/03311 



136 




§ 

■8 

CD 

•5 

Uj 

CO 
CD 



< 

CD 

c 

I— 

</) 

c 
g 

CO 

o 

CL 



vISDOCID: <WO 0140497A2_I_> 



WO 01/40497 



PCT/FROO/03311 



137 



x 

CD 

z 

CO «- . 

co & 

= "a 

or 

*= 

o 2 

g £ 
■O "O 

© c 



£.2 



CO 

c 

0) 

•o 

0> 
"D 

•<-» 

c 
CD 

xi 

2 

D> 
i_ 
3 

CO 



CO 
(0 



w to ~ 

a> c co 

(0 to 

O) CO 



d) 0) 

c ^ 

c c 

a> o 

*n = 

-<d us 

co 3 
o 

CO »CD 

a> 

3 CD 

* c 
° o 

C =J 

.2 g 

2 * 

• -5 
■o £ 

to UJ 

u 
o 

£ 

LU 



w CO 



o 
co 

CD 

Z 
Q 
< 

O) 



a> 

CO 



o 

CO 
CD 



Q 
< 

CD 
C 



'CD JJ> CO 
O <D 

o 

E co to 

O .> CD 



a) 

jQ 

as 
> 



3 o 

o Jo 

g> CD 

IS 

o 



> 8 

CD CO 



O CO 

o c 
^ ° 

§ 5 



O 



CO 



o 

CO 
0) 

c 
o 

CO 

c 
a> 

CL 
CO 
=3 



CO 
CO 



CD 

m 



CD 



in 



a 
co 

■s 

o 
co 
o 



o 



CO 
CD 



O 

4-1 



CM 



O 
CO 

CD 

-o 
g 

CO 

c 

CD 

a_ 

CO 



CD 



oo 



o 
co 

CO 



o 



co 





T 






+1 




O 

T — 


CD 

o 


CD 


CO 




in 



CO 

o 

00 

o 

CD 



CD 
i_ 

CO 

3 

CD 
O 

CO 

V. 

LU 



ID 



co 



c 
o 

o 

CO 

a> 

2> 
o 

CO 

o 



2 

3 
> 

0) 
"O 
-»—* 

CO 

0) 
T3 



o 

CO 
CD 

c 

3 

CO 

c 

CO 

o 

o 

o 
-co 

CO 
CD 



<D 
CD 
d 
CO 

o 

CD 



O 
CN 

C 
CD 

E 

CD 
CO 
CO 



c 

c - " 
o 



.CO ,CD 
CO 



CL 
CO 



CO 
CD 



O CO 

CO §-< 

,<D ^> 

CO CD CD 

.2^ co co 

g CD CD 

CO ^= ■= 

2 E E 

o i- ^ 

'E 3 3 

C CO CO 

c c 

CD CD 

E E 

CD CD 



CD 
"U 
CO 
3 

E 



CD 
"O 



< 

13 
C 

_o 

CO 
• 

^CD 
CD 

E 

E 
co 
o> 

CD 



'CO 

o 

CL 
CL 
CO 



E - 



CO 
CL 

CD 
co 
'CD 

O 

CL 
O 



a - 

_CD 

-CD 



JQ -Q 

E E 

o o 

c cz 

CD -CD 

Q Q 



E lo 

CD O 

E co 

O Q 

Q 1 



CD 
O) 

3 
CO 

CD 
-CD 
J3 

-CD 

-CD 
««— » 

-CD 
CO 

CO 

^< 

CD 

Q 
< 

-CD 



CD 
CO 
CO 

CO 

? 

CD 
c 

T3 
C 

o 
o 

CO 
i— 
CO 
CL 

CD 
CO 
O 

CO 
CD 
CO 

CD 



CO 
CD 

o> 

CO 
,CD 

CL 
CO 

CD 
-CD 
.CO 

To 

-CD 

-CD 
-CD 
CO 

c 
o 

CO 

o 



CO -O 



O CD 



CO 
3 

CO 

• • CD 
X3 > 



C 
CO 
3 
CT 
CO 



CD 



SDOCID: <WO 0140497A2_I_> 



WO 01/40497 



PCT/FR00/03311 



138 



o 
> 

CO 

c 
o 

♦3 
OS 
TJ 
°EZ 
-D 
>» 

TJ 

75 
c 
o> 

# 5> 

o 



o 



o o 

- c 

- o 
w < 

is 

r vo 

o °^ 

ao 
o O 

Q. co s? 

3 -Q o 



3 + 

c E 



o 



_ ». a> 
t© .2 2 



T3 



CO 
O 



j2 

o 



CO 
CO 



z 
c -o 

o CO 

a 



CO 

o 

2 

Q. 

G> 
"D 



03 CO ° 
CO CO CO 

'C to 

s§ 

03 O 

O co 



CO 

a> 

-♦— » 
'CD 

o 

E 
o 

Q_ 

CD 
I— 

• 

CO 

CO 

aj 

-0) 

o 

E 
o 
c 

< 



I CD 



o 
o 

CD 
-D 
O 

*<D 

2 

CL 



co 



0) 

o 

CD 
_Q 
O 

*CD 

2 

CL 



CO 



0) 

'CD 
O 
CD 

-Q 
O 

2 

CL 



co 



-hi 



CO 



o 



CO 
CO 



LO 

o 

+! 



CO 
LO 



+1 



0) 

o 

CD 

c 
.o 

a 

CD 
i— 

Vi 

LU 



CD 

a 

2 

■5 
c 

c 
o 

a 

CD 
LU 



T— 
O 

CO 



+1 



LO 

CO 



+1 



CO 



+1, 

CD 



+1 



a> 
d 



co 
csi 



CO 



4J, 

O 
CO 



-H 



+1 



CO 



a> 



+1 



GO 



O 



-hi 



to 



O 

CO 

O 



-hi 



CD 

csi 



o 
o 

c 

<D 

CD 
CO 

>> 



+1 



LO 



+1. 
-p 

o x 
CO 
CO 



O LU 

c o 

<D ^ 
CD ^ 



CD 
O) 
<D 

CO 
O 



o 

CD 
CO 

c 

CD 



a 

-CD 
"O 

cz 
o 

o 

CD 

I 

_a) 

o 
o 
o 

2 

<D 



c 

<D 

o 

8 

-co 

CD" 

c 

0) 
00 
O) 

c 



CD 

x> 

CO 

_CD 

'CD 
t_ 

CD 
>» 

2 



CO 
'CD 

2 

> 
0) 

» 

■R 

CD 

c 
o 

o 

fci n <o 
. -2lu 

<0 CD >- 



CO 

c 

CO 
T3 

<D 

o> 

CD 
O 



^4SDOCID: <WO 0140497A2_I_> 



WO 01/40497 



PCT/FR00/03311 



139 



cr 
E 

CO 

o 
o 

CD 

- 3- 

cr 
c 

CO 



CO 

c 

CO 
TJ 

CO 
CD 

CO O 

jy ° 

XI (f) 

co co 



< 

CO 
<D 
O 

c 

o 

3 

cr 

.0) 
CO 

CO 
0) 



> 
Q 



-CP 
CO 

CO 



CD 
-C 

o 
o 

ft— 

CL 

CO 

_3 

CL 

*co 
"o 

> 



*cd 

T3 CO 
'co 



k CD CD 



a) 
c 

CO 

> 



CL 
CO 

CL 

CD 



o 
o 

CL 



c 

CD 

c 
a 
o 



00 
00 



in 



in 



iri 



CD 
'i_ 

O 
CO 

o 

CD 
2 

CL 
I 

co 



;CD 

j5 

Cl 

jz 
o 

"O 



CD 

c 
O 



:9> 
la 

CL 

c 
o 

CM 
CN 
x — 

CD 
C 

o 



CD 

co 

_Q 
O 
-CD 



CL 

CD 
CN 

CO 
CD 
C 

o 
O 



CD 



in 



CD 

co 
co 



co 

CD 



m 

CD 



CD 



^5 

CD 
CD 



CD 
CD 



CO 

CO 
CD 



CD 

CO 
CD 



CN 

O 
CD 



CO 
CD 



CD 
CO 

c 

CO 
CO 



Cl 
co 
O 

3 



CD 
CO 

c 

CO 
CD 

E 



Cl 
co 
o 



CD 
CO 

c 
■= 

CO 

CO 
1— 

E 

3 



Cl 
co 
O 



*2? 
o 
?x 

E 

3 



Cl 
CO 
O 



CO 

c 

CD 

o 

CD 

E 



aj 
"o 
co 

JQ 

o 

CD 
< 



Cl 

CO 

E 

3 
JD 
O 

.N 



Cl 
co 

E 

la 
o 

N 

Id 



E 

3 
O 

*c 

O 
Cl 
CO^ 

E 
3 

la 
o 

N 

1c 

ft— 

>v 
■o 

2 

CD 



Cl 
co 
O 
c 

0) 
CO 

E 

3 

Lq 

s 



CD 



Cl 

co 

E 

3 

la 
o 

N 

JC 
i— . 

o 

CO 
CD 



Cl 

CO 

E 

3 

la 
o 

N 



CO 
ft— 

CD 



£ 

3 
k_ 

CO 

8 

CO 

la 

3 

E 

3 
*i— 

a> 
t3 

CO 

.a 
_o 

~>* 

CL 



co 
CD 

58 
o 

CO 

o 



CN 



CM 
CO 



CO 
I 

CO 
CO 



CO 



CO 
CO 

i 

CO 
CO 
I 

C0 



in 

CO 
I 

CO 

in 

co 
i 

CM 

m 
co 



CN 
CN 



in 
co 
i 

o 
m 
co 
• 

CD 

co 



in 

0J 

o 
in 

0J 

i 

CD 
CO 



CO 

CD 
CO 
I 

co 



CN 
CO 
CO 
i 

CO 
CO 
I 

o 

CO 
CO 



in 
co 

CN 

CO 
i 

o 

CNJ 
CO 
i 

o> 

To 



CO, 

CD 
CO 
CO 

CO 
CO 
CO 
I 

CO 
CO 



CD, 

CO 
CN 
CO 

o 

CN 
CO 
i 

a> 
i — 
co 



00 

CO 
i 

co 
i 

CO 
CO 



3 DOC ID: <WO 01 40497 A2_l_> 



WO 01/40497 



140 



PCT/FR00/03311 



to 
c 

CO 

co 
o 



o 

_ ° CD 
<D £ & 

.t: r s 

M i 

< 3 .a 

H ST * 

to 

(0 
CD 



-0) 
CO 



CD 

o 
o 



<0 
_3 

Q. 

<D 



(O 



CD 
O 

s> 

c 
o 

cS 
o 



CO 



CO 



*CD 
"</> 



Q> 
> 



'CD CD 
J= 
O 

c o 

CD *- 

I J 

co a. 



O 
O 
CL 



O 

co 



c 

<D 

xz 

1— 

o 

03 

_o 

3 
CO 

O 



CO 
CD 

a> 



Cl 

CO 
1— 

a) 
o 

CO 

.2 

CD 

O 



CO 



00 
CO 



1= 

15 

3 

CL 

C 

o 



CN 
CM 

T — 

< 

Q 

<D 

c 

o 



CM 
CD 



E 

3 
CD 

c 

CO 
l_ 
v_ 

aj 

0) 

E 
E 

3 

la 
o 

o 

CO 

cu 



lO 
CO 



*CD 



CO 



CO 



oo 

LO 

CO 
I 

CO 

m 

CO 

i 

CN 
UO 
CO 



c 

.0) 

o 
E 

3 

lo 
o 
*o 
o 

XZ 

CU 



CO 

CO 
CO 
CO 
I 

LO 
CO 
CO 
I 

co 

CO 



in 

CO 



-CD 

3 
Cl 

c 
o 
a 

CO 
CN 

Q 

a> 
c 
o 



CO 



CO 



co 



Cl 


Cl 


CO 


CO 


CO 


CO 


CO 


CO 


c 


c 


o 


o 


E 


E 


o 


o 


CO 


CD 


c 


c 


1c 


x: 


CL 


Cl 


CO 


CO 



CO 



CO 
I 

CO 
CO 
i 

CO 
CO 



CO 
CD 

t3 

CO 

o 

*<D 

s 

CL 



CO 
CO 



CD 

*cd 
o 

CO 
-Q 

o 

s 

CL 

t 

CO 
CN 

o 

CD 

o 



CO 

CO 
CO 



CO 

CO 
CO 



CL 
CO 

CO 
CO 

c 
o 

E 
o 

"O 
3 
CD 
CO 

CL 



< 

X 

c 
~o 

CO 

> 

CD 

c 
_o 

o 



CO 



CO 
3 

.9 
o 

JQ 

c 

CO 

L_ 

0) 

o 

CO 
JQ 

o 

CO 







CO 


CM 










CM 




NT 




CO 
i 


CO 
■ 




CO 






CO 


03 


1 

o 


i 

in 






CO 


03 



CO 
CO 



to 

CO 
CO 



CO 

CO 
CO 



CO 

CO 
CO 



o 

*CD 

2 

I 

< 

X 
c 

CO 

> 

CD 

c 
_o 
o 



;CD 

La 

3 
CL 

C 

o 



CD 
XZ 

o 

3 

o 

CO 



o 
o 

CL 

i 

CO 

CO 

CD 
C 

o 
o 

*o 

CO 



o 

-CD 

2 

CL 
i 

CO 

CO 
CD 

c 
_o 
o 

*6 

CO 



CO 
CO 



CO 
CM 
CO 



CO 

CO 
CO 



CO 

CO 
CO 



Cl 

CO 

c/> 
CO 

c 

o 

E 
o 

jC 

"E 

CO 



CO 

'xz 

CL 
CD 

E 

CO 
CO 

c 
o 

E 

*a> 

"3 



3 
_Q 
£Z 
CD 



a> 
o 

CO 
_Q 

_o 
a> 



3 
JQ 
£= 
CD 

x: 

CD 
•*-» 
O 
CO 
_D 

o 
>> 
£ 



CO 

i 

CO 

lii 
in 

cu 



CO 



CO 
CM 
CO 
i 

o 

CM 
CO 
i 

CO 
CO 



co^ 

CO 
CO 

CO 
I 

CO 
CO 



CO 

To 

I 

CM 

To 

I 

T— 

CO 



MSDOCID: <WO 0140497A2_I_> 



WO 01/40497 



PCT/FROO/03311 



mi 



TJ CO 

& I 

CO 



to 
c 

CO 
TD 

CO 
<D 
2 
C 

C 

o 
o> £ 

1 1 1 

* S 5 

< o 

Z> « ° 
< » 5 

8 ? 

CD Q) co 

h ST w 

(0 



<D 
-C 

o 
o 

k_ 
CL 

CO 

JD 

CL 
0) 

CO 

o 

> 



III 



0) 



(0 
<D 
T3 

*55 
>_ 

o 

> 



c 

CD 

c 

CO 

O 
> 



CD 
_C 

o 
o 

CL 

CO 
_3 

CL 

<D 



O 

o 

Ql 



o 
CD 
LO 
CO 



O 
38 

o 

QL 

CN 
i 

CO 
0) 

c 

jd 
o 

o 

CO 



CD 
CO 



CO 
Z5 

to 

ZJ 

to 

CL 
CO 
O 

CO 

o 
o 
o 
o 
o 
>% 
-g 



LO 

CO 
CO 

CO 
i 

LO 
CO 
CO 
i 

CO 
CO 



CO 

oo 
oo 



to 
to 
c 

<D 

E 

CO 

sz 

C 



JO 

"o3 
c: 

.2 

CO 
CD 



LO 

co 
i 

CO 
I 

CO 
CO 



LO 
CO 



25 

CL 
C 

o 
c 



O 
o 
o 

t 

CM 

CD 
C 

o 
O 



LO 

oo 



CO 



o 
to 

v_ 

CD 
CL 
O 
<D 
to 
O 

to 

to 
>> 
o 

2 

CL 

E 

CO 



CM 



CO 
i 

CO 

CO 
I 

oo 

CO 



to 

CD 

o 

CO 
-Q 
O 

% S 
O 



0Q_ 



CO 



o 

fc CD 

o 

CL 
i 

co 

CD 
CL 
O 

CD 

c 
_g 

O 



CN 

d 

CO 



to 



CD 

to 

o 

o 
o 
■o 
o 

JO. 

cr 



to 

CO 
CM 
CO 

I 

00 
CM 
CO 

CM 
CO 



to 

CD 
*<D 

13 

CO 

JQ 

o 

O 
l— 

CL 
i 



CM 
CO 



CO 

c 

CD 
■D 
CD 
X 
CD 

to 

to 
>* 
o 
o 
c 
c 

CO 

2 



CO 



CO 
I 

CO 
CO 

I 

00 
CO 



LO 
CO 



CO 
CO 



o 

*CD 

2 

CL 
I 

CO 
I 

CO 
CD 

c 
o 

o 



to 
c: 

CD 

o 

CD 



to 

i— 

CD 

o 

CO 

o 

CD 

CD 



CO 
CO 



c 

o 

CO 
=3 

to 

CD 

Q 











CO 










CO 


CO 


CM 




CM 




CO 
1 


CO 

t 


CO 
i 


CM 


CO 






CM 




CO 
i 


CO 
i 


CO 
1 






o 


T— 


CM 




CO 


CO 


CO 



CM 

CO 
OO 



o 
o 

CL 
I 

CO 

CO 

CD 

_o 
O 



CO 

LO 
CO 



to 
_2 

CL 

o 
c 

E 

CO 

o 

**— 
_Q 

"> 

EE 
to 

CD 

Q 



CO 
CO 



:cd 
Z) 

CL 
C 

o 

CO 
CO 

en 

-CD 



CD 
T3 



O 
C 

o 
o 

co 

CO 
+ 



co 

CO 



CM 
CO 



CO 



CL 
O 
N 

CO 



CL 

o 

N 
CO 

n 



o 
to 

CL 
CO 

13 



o 
o 

to 

CO 
+ 



CO 
CM 
CO 



LO 
CM 
CO 



CM 
CM 



OO 

To 



DOC ID: <WO 0140497A2_I_> 



WO 01/40497 



PCT/FR00/0331 1 



142 



0) 

o 
u 

o 

3 

c 

XI 

JS 
CO 

c 

TO 

XI 

CO CO 
a* 0) 



o 

ID ° 

< CO 
Uj CD 

-J 

CD 

< Q 

*~ < 
TJ 

CO 
CD 
U 

c 
o 

3 
CJ 

-CD 
CO 

CO 
<D 
"D 

> 



CL 
CO 
CO 
CO 

o 

E 
_o 

a> 
O 



E 
o 

CL 
CO 
CO 

c 
E 

3 

CO 

C 

03 

i— 

O 

CL 

CO 

O 

CL 
<D 

CO 



co 

CO 
CD 



CO 
CD 

CD 
CO 
O 

E 
2 
o 
o 

CL 

03 

-Q 

O 
i_ 

x: 
tr 
< 



CM 
03 



C 
CD 
"O 

c 

o 
c: 

a> 

o 

E 
o 
c 

o 

03 



CO 

CO 
CO 



to 
a 

03 

■o 

>> 
X 

o 

o 

03 
O 



CO 

CO 
CO 



3 

CL 
C 

o 
c 



CO 

cr 

CD 



C 

a> 
■g 

c 
o 
c 

OJ 

"55 
o 
:>» 

E 
o 
c 

o 

CO 



CO 

c: 

03 
TJ 
>> 
X 

o 

i— 

CD 
O 
CO 

2 

sz 
tr 
< 



CO 

CO 
CM 
CO 
I 

CO 
CM 

CO 

i 

CM 



E 
3 

a> 
o 

CO 

x> 
o 



in 

CO 



>> 

-■^ 

CM 
CO 

a> 5 
o 

"D 

O 
< 



CO 
CO 



CO 

;g 

0> 

o 

03 
CO 
03 

x: 

Q. 

_o 

O 

X 



to 

CD 

t 

03 
i 

CO 
03 



CO 



E 

3 
>> 

x: 

CL 

E 
i_ 

0) 

o 

03 
X3 
O 

■g 
o 
< 

CO 
CO 

o 

03 
> 
CO 
CD 

c 
o 

O 



CO 

c 

cd 

O) 

x 

0) 

a) 
o 

CO 

CO 
03 

o 

E 
o 



CO 
CO 



E 
_3 

>» 
x: 

E 

3 

-2 

O 

03 
X> 

O 
"D 

O 
<, 

CO 

CO 
O 

03 

> 
CO 

a> 
c: 
g 

O 



CO 

CO 
CO 



6 s - 
CD 

CM 
CO 



cl| 
<2 E 

i E 

O co 

-Q 

O 

•g 
o 

< 



CO 

co 









CnT 


cnT 
















CO 


CO 


CJ) 


CM 


CO 


CO 


03 

t 


CO 


CO 


CO 


r 

CO 


1 

CO 


CM 


CO 


CO 


CO 
1 


03 


CO 




i 


1 


CM 


CO 


CO 


03 


03 


03 



<D 
i_ 
O 
X 
'\— 

x: 
o 

cd 
x: 
■*-» 
_g 

co 
X 



E 

_3 

■ 

CO 
CD 

c a> 
o o 
O j§ 
o 

"D 

< 



CO 

CD 
CO 



CO 
3 

o 



CO 

o 

CO 
X) 

_g 

CD 
CL 



CO 
CO 



00 

a: 3 

£ CD 

-2 "5 
o 5 

o 
■g 

o 

< 



CO 

o 

CO 



x> 
o 

E 

CO 
3 

o 
u 
o 
o 
o 



CO 



CO 
I 

CO 
CO 
I 

CO 
CO 



CO 
CO 
03 
I 

CO 
CO 
CO 
I 

co 

CO 



CO 
CO 



: — 

XJ 
3 
CL 

c 
o 

CD 
*<D 



c 

CD 

-a 



o 
c 

a> 
£ 

o 

CO 
XJ 

3 
LU 



CO 
CO 



CO 
03 

c 

ro 

03 

E 
"o 

03 
Xi 

o 
E 

I— 
CD 

x: 

s 

CD 

< 



CO 
CO 
CO 



CD 
**— 
CD 

o 
x: 
c 

CD 
O) 
3 
X 



co 

CO 



CO 

aJ 

c 
o 

o 

o 



CD 
CO 
CO 



CO 



o 
£2 

CD 
P- CO 



CO $ 
X3 
3 
_J 

Toco 
"55 

3 

o 
x: 
rsi 



CD 
CO 
CO 



CO 



CM 
CM 
CO 



CO 

aJ 
M 
LU 



o 



MSDOCID: <WO 0140497A2_I_> 



WO 01/40497 



143 



PCT/FR00/03311 



TABLEAU 9 : Sequences 





SEQ ID N° 






FGPS^^I 


1 


FGPS5122 


2 


FGPS350 


3 




4 


FGPS643 (C,\ 


«; 

w 


R4QQ 


fi 


RS00 


7 


V-/ V 1 


8 

u 


FGPS516 

1 VJI 1 \J 


Q 


FGPS517 


10 


FGPS518 


1 1 


FGPS612 


12 


FGPS669 


13 


FGPS61R 

I VJl OvJ IO 


14 


FGPR614 


1*S 


FGPS615 


16 


FGPS616 


17 


FGPS621 


18 


FGPS617 


19 


FGPS680 


20 


FGPS619 


21 


63f 


22 


1387r 


23 


Oligo-1 (Exemple 10) 


24 


Oligo-2 (Exemple 10) 


25 


A1 


26 


A2 


27 


B1 


28 


B2 


29 


Acides nucleiques PKS-I 




Amb9 


30 


Amb12 


31 


Ery19 


32 


A9b12 


33 


A23G1 1-1 


34 


A26G1 1-2 


35 


A26G1-10 


36 
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TABLEAU 9 (suite 1):Sequences 



Designation 


SEQ ID N° 


A35 E4-16 


37 


A49F1-32 


38 


A17d2-3 


39 


A53F11-13 


40 


A53F11-14 


41 


A22A 2-1 1 


42 


A36E8-1 


43 


A52E8-2 


44 


Sequences d'acides amines PKS-I 




Amb9 


45 


Amb12 


46 


Ery19 


47 


A9b12 


48 


A23G1 1-1 


49 


A26G1 1-2 


50 


A26G1-10 


51 


A35 E4-16 


52 


A49F1-32 


53 


A17d2-3 


54 


A53F11-13 


55 


A53F11-14 


56 


A22A 2-1 1 


57 


A36E8-1 


58 j 


A52E8-2 


59 i 


Sequences ADNr 16S 




a24.1(2), 


60 


a4.a6.a7 (7) 


61 


a52.a53.a5(15) 


62 


a49.a50.a51(11) 


63 


a4.a6.a7(14) 


64 


a30.a31.a32(7) 


65 


a37.a38.a39(6) 


66 


a46.a47.a48(14) 


67 


a49.a50.a51(1) 


68 


a52.a53.a5(8) 


69 


a8.a9.a10(13) 


70 


a1.a2.a3(13) 


71 


a43.a44.a45(10) 


72 


a27.a28.a29(5) 


73 



_0140497A2_L> 
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TABLEAU 9 (suite 2):Sequences 



Designation 


SEQ ID N° 


a23.1 


74 


a25.1 


75 


a18.1(22) 


76 


a33.1 


77 


a14.7 


78 


a21.7 


79 


a8.a9.a10(7) 


80 


a8.a9.a10(18) 


81 


a27.a28.a29(3) 


82 


a34.a35.a36(5) 


83 


a22.1(19) 


84 


a11.a12.a13(5) 


85 


a19.a20.a26(9) 


86 


a40.a41.a42(6) 


87 


a27.a28.a29(8) 


88 


a27.a28.a29(12) 


89 


a37.a38.a39(12) 


90 


a46.a47.a48(6) 


91 


a11.a12.a13(11) 


92 


a15.a16.a17(12) 


93 


a15.a16.a17(5) 


94 


a19.a20.a26(13) 


95 


a37.a38.a39(14) 


96 


a8.a9.a10(9) 


97 


a19.a20.a26(5) 


98 


a43.a44.a45(4) 


99 


a1.a2.a3(4) 


100 


a4.a6.a7(23) 


101 


a49.a50.a51 (22) I 


102 


a8.a9.a10(2) 1 


103 


a34.a35.a36(3) 


104 


a34.a35.a36(10) ! 


105 


a40.a41.a42(13) 


106 ] 
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TABLEAU 9 (suite 3) : 



Sequences 



D£^inn^tinn 


RFO ID M° 






mo. 1 n ( PYPmnlp 


107 


pr\c O n /pvpmnlp ^\ 


I uo 


F\Akr* ^11 /pYomnb 

cvipv/ o II ^exempie ioy 


1 \J<D 


D1I9C oir (exempie to; 


i 1 n 


Amorce 1 (exemple 15) 


AAA 
111 


Amorce z (exempie To 


A A O 
112 


Acides nucleiques PKS-I 




Cosmide a2641 (vecteur + insert brin (-) 


113 


Cosmide a2641 (insert - brin (+) 


J J J 

114 


orfl 


MAC 

115 


orf2 


A A O 

116 


orto 


117 


OIT4 


A A O 

118 


orto 


119 


OiTD 


a on 


Qorti ipnroc ariHoc aminoe DLf C I 

WCVJUVIII#C9 duluco ctllllllt^o 1 l\0**l 




ORF1 


121 


ORF2 


122 


ORF3 


123 


ORF4 


124 


ORF5 


125 


ORF6 


126 
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REVENP1CATIONS 

1. Procede de preparation d'une collection d'acides nucleiques a partir 
d'un echantillon de sol contenant des organismes, ledit procede comprenant la 
succession d'etapes suivante : 

- 1 (a) Obtention de micro-particules par broyage d'un Echantillon de 

sol prealablement seche ou dessique , puis mise en suspension des 
micro-particules dans un milieu tampon liquide ; et 

(b) extraction des acides nucleiques presents dans les micro- 
particules ; et 

(c)- passage de la solution contenant les acides nucteiques sur un 
tamis moleculaire, puis recuperation des fractions d'elution enrichies 
en acides nucleiques et passage des fractions dilution enrichies en 
acides nucleiques sur un support de chromatographie d'echange 
d'anions, puis recuperation des fractions d'elution contenant les 
acides nucleiques purifies. 

2. Procede de preparation d'une collection d'acides nucleiques a partir 
d'un echantillon de Tenvironnement contenant des organismes, ledit procede 
comprenant la succession d'etapes suivante : 

- II (i) Obtention d'une suspension par dispersion de I'echantillon de 
Penvironnement en milieu liquide puis homogenisation de la 
suspension par agitation douce; et 

(ii) separation des organismes et des autres constituants mineraux 
et/ou organiques de la suspension homogene obtenue a I'etape (i) par 
centrifugation sur un gradient de densite ; et 

(iii) lyse des organismes separes a I'etape (ii) et extraction des acides 
nucleiques; et 

(iv) purification des acides nucleiques sur un gradient de chlorure de 
cesium. 

3. Procede selon la revendication 1, caracterise en ce que I'etape I- 
(a) est suivie d'une etape complementaire de : 

- traitement des micro-particules en suspension dans un milieu 
tampon liquide par sonication ; 
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4. Procede selon la revendication 1, caracterise en ce que I'etape 
l-(a) est suivie des etapes complementaires suivantes : 

- traitement des micro-particules en suspension dans un milieu 
tampon liquide par sonication ; 

- incubation de la suspension a 37°C apres sonication en presence de 
lysozyme et d'achromopeptidase; 

- addition de SDS 

- recuperation des acides nucleiques. 

5. Procede selon la revendication 1, caracterise en ce que I'etape I- 
(a) est suivie des 6tapes complementaires suivantes : 

- homogeneisation des micro-particules a I'aide d'une 6tape de 
mixage violent (vortex) suivie d'une etape de simple agitation ; 

- congelation de la suspension homogene suivie d'une decongelation ; 

- traitement par sonication de la suspension apres d§congelation ; 

- incubation de la suspension a 37°C apres sonication en presence de 
lysozyme et d'achromopeptidase; 

- addition de SDS; 

6 .Procede selon I'une des revendications 1 a 5 caracterise en ce 
que les acides nucleiques sont des molecules d'ADN. 

7. Procede de preparation d'une collection de vecteurs 
recombinants, caracterise en ce que les acides nucleiques obtenus par le 
procede selon Tune des revendications 1 a 6 sont inseres dans un vecteur 
de clonage et/ou d'expression. 

8. Procede selon la revendication 7, caracterise en ce que les 
acides nucleiques sont separes en fonction de leur taille prealablement a 
leur insertion dans le vecteur de clonage et/ou d'expression. 

9. Procede selon la revendication 7, caracterise en ce que la taille 
moyenne des acides nucleiques est rendue sensiblement uniforme par 
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rupture physique, prealablement a leur insertion dans le vecteur de clonage 
et/ou d'expression. 

10. Procede selon la revendication 7, caracterise en ce que le 
vecteur de clonage et/ou d'expression est du type plasmide. 

11. Procede selon la revendication 7, caracterise en ce que le 
vecteur de clonage et/ou d'expression est du type cosmide. 

12. Procede selon la revendication 11, caracterise en ce qu'il s'agit 
d'un cosmide replicatif chez E. coli et integratif chez Streptomyces. 

13. Procede selon la revendication 12, caracterise en ce qu'il s'agit 
du cosmide pOS700l. 

14. Procede selon la revendication 11, caracterise en ce qu'il s'agit 
d'un cosmide conjugatif et integratif chez Streptomyces. 

15. Procede selon la revendication 14, caracterise en ce que le 
cosmide est choisi parmi les cosmides pOSV303, pOSV306 et pOSV307. 

16. Procede selon la revendication 11, caracterise en ce qu'il s'agit 
d'un cosmide replicatif a la fois chez E. colieX chez Streptomyces. 

17. Procede selon la revendication 16, caracterise en ce qu'il s'agit 
du cosmide pOS 700R. 

18. Procede selon la revendication 11, caracterise en ce qu'il s'agit 
d'un cosmide replicatif chez E. coli et Streptomyces et conjugatif chez 
Streptomyces. 

19. Procede selon la revendication 7, caracterise en ce que le 
vecteur de clonage et/ou d'expression est du type BAC. 
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20. Procede selon la revendication 19, caracterise en ce qu'il s'agit 
d'un vecteur BAC integratif et conjugatif chez Streptomyces. 

21. Procede selon la revendication 20, caracterise en ce que le 
vecteur est choisi parmi les vecteurs BAC pOSV403, pMBD-1, pMBD-2, 
pMBD-3, pMBD-4, pMBD-5 et pMBD-6. 

22. Proc6d6 de preparation d'un vecteur recombinant de clonage 
et/ou d'expression, caracterise en ce que I'etape d'insertion d'un acide 
nucleique dans le vecteur de clonage et/ou d'expression comprend les 
etapes suivantes : 

- ouvrir le vecteur de clonage et/ou d'expression a un site de clonage 
choisi, a I'aide d'une endonuclease de restriction appropriee ; 

- ajouter un premier acide nucleique homopolymerique a I'extremite 3' 
libre du vecteur ouvert ; 

- ajouter un second acide nucleique homopolymerique, de sequence 
complementaire au premier acide nucleique homopolymerique, £ 
I'extremite 3' libre de I'acide nucleique de la collection a inserer dans le 
vecteur; 

- assembler I'acide nucleique du vecteur et I'acide nucleique de la 
collection par hybridation du premier et du second acide nucleique 
homopolymerique de sequences complementaires Tune de Tautre; 

- refermer le vecteur par ligation. 

23. Procede selon la revendication 22, caracterise en ce que : 

- le premier acide nucleique homopolymerique est de sequence poly(A) 
ou poly (T) ; et 

- le second acide nucleique homopolymerique est de sequence poly(T) 
ou poly (A). 

24. Procede de preparation d f un vecteur recombinant selon Tune 
des revendications 22 ou 23, caracterise en ce que la taille de I'acide 
nucleique a insurer est d f au moins 100 kilobases, preferentiellement d f au 
moins 200 kilobases. 
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25. Procede de preparation d'un vecteur recombinant selon Tune 
des revendications 22 a 24, caracterise en ce que I'acide nucleique a inserer 
est contenu dans la collection d'acides nucieiques obtenus par le procede 
selon Tune des revendications 1 a 6. 

26. Procede de preparation d'un vecteur recombinant de clonage 
et/ou d'expression, caracterise en ce que I'etape d'insertion d'un d'acide 
nucleique dans le vecteur de clonage et/ou d'expression comprend les 
etapes suivantes : 

- creation de bouts francs sur les extremites de I'acide nucleique de la 
collection par elimination des sequences 3' sortantes et remplissage 
des sequences 5' sortantes ; 

- ouverture du vecteur de clonage et/ou d'expression a un site de 
clonage choisi, a I'aide d'une endonuclease de restriction appropriee ; 

- creation de bouts francs aux extremites de I'acide nucleique du 
vecteur par elimination des sequences 3' sortantes et remplissage des 
sequences 5' sortantes, puis dephosphorylation des extremites 5' ; 

- Addition d'adaptateurs oligonucleotidiques complementaires ; 

- insertion de I'acide nucleique de la collection dans le vecteur par 
ligation. 

27. Procede de preparation d'un vecteur recombinant selon la 
revendication 26, caracterise en ce que la taille de I'acide nucleique a inserer 
est d'au moins 100 kilobases, preferentiellement d'au moins 200 kilobases. 

28. Procede de preparation d'un vecteur recombinant selon Tune 
des revendications 26 ou 27, caracterise en ce que Tacide nucleique a 
inserer est contenu dans la collection d'acides nucieiques obtenus par le 
procede selon I'une des revendications 1 a 6. 

29. Procede selon I'une des revendications 22 a 28, caracterise en 
ce que les acides nucteiques sont inseres tels quels, sans traitement par une 
ou plusieurs endonucleases de restriction prealablement a leur insertion 
dans le vecteur de clonage et/ou d'expression. 
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30. Collection d'acides nucleiques constitute des acides nucleiques 
obtenus par le procede selon I'une des revendications 1 a 6. 

31. Acide nucleique caracterise en ce qu'il est contenu dans la 
collection d'acides nucleiques selon le revendication 30. 

32. Acide nucleique selon le revendication 31, caracterise en ce 
qu'il comprend une sequence nucleotidique codant au moins un operon, ou 
une partie d'un operon. 

33. Acide nucleique selon la revendication 32, caracterise en ce 
que I'operon code pour la totalite ou une partie d'une voie metabolique. 

34. Acide nucleique selon la revendication 33, caracterise en ce 
que la voie metabolique est la voie de synthese des polyketides. 

35 Acide nucleique selon la revendication 34, caracterise en ce qu'il 
est choisi parmi les polynucleotides comprenant les sequences SEQ ID N° 
30 a 44 etSEQ ID N° 115 a 120. 

36. Acide nucleique selon (a revendication 31, caracterise en ce 
qu'il comprend la totalite d'une sequence nucleotidique codant pour un 
polypeptide 

37. Acide nucleique selon I'une des revendications 31 a 36, 
caracterise en ce qu'il est d'origine procaryote. 

38. Acide nucleique selon la revendication 37, caracterise en ce 
qu'il provient d'une bacterie ou d'un virus. 

39. Acide nucleique selon I'une des revendications 31 a 33 et 36, 
caracterise en ce qu'il est d'origine eucaryote. 

40. Acide nucleique selon la revendication 39, caracterise en ce 
qu'il provient d'un champignon, d'une levure, d'une plante ou d'un animal. 
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41. Vecteur recombinant caracterise en ce qu'il est choisi parmi les 
vecteurs recombinants suivants : 

a) un vecteur comprenant un acide nucleique selon Tune des 
revendications 35 a 40; 

b) un vecteur obtenu selon le procede de Tune des revendications 22 a 
25 et 29; 

c) un vecteur obtenu selon le procede de Tune des revendications 26 a 
29. 

42 Vecteur caracterise en ce qu'il s'agit du cosmide pOS 7001. 

43. Vecteur caracterise en ce qu'il s'agit du cosmide pOSV303. 

44. Vecteur caracterise en ce qu'il s'agit du cosmide pOSV306. 

45. Vecteur caracterise en ce qu'il s'agit du cosmide pOSV307. 

46. Vecteur caracterise en ce qu'il s'agit du cosmide pOS 700R. 

47. Vecteur caracterise en ce qu'il s'agit du vecteur BAC pOSV403. 

48. Vecteur caracterise en ce qu'il s'agit du vecteur pMBD-1. 

49. Vecteur caracterise en ce qu'il s'agit du vecteur pMBD-2 

50. Vecteur caracterise en ce qu'il s'agit du vecteur pMBD-3. 

51. Vecteur caracterise en ce qu'il s'agit du vecteur pMBD-4. 

52. Vecteur caracterise en ce qu'il s'agit du vecteur pMBD-5. 

53. Vecteur caracterise en ce qu'il s'agit du vecteur pMBD-6. 
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54. Collection de vecteurs recombinants tels qu'obtenus selon le 
procede de Tune des revendications 7 a 21, 25 et 28. 

55. Vecteur recombinant de clonage et/ou d'expression caracterise 
en ce qu'il est contenu dans la collection de vecteurs recombinants selon la 
revendication 54. 

56 Cellule hote recombinante comprenant un acide nucleique selon 
Tune des revendications 31 a 40 ou un vecteur recombinant selon la 
revendication 55. 

57. Cellule hote recombinante selon la revendication 56, 
caracterisee en ce qu'il s'agit d'une cellule procaryote ou eucaryote. 

58. Cellule hote recombinante selon la revendication 57, 
caracterisee en ce qu'il s'agit d'une bacterie. 

59. Cellule hote recombinante selon la revendication 58, 
caracterisee en ce qu'il s'agit d'une bacterie choisie parmi E. coli et 
Streptomyces. 

60. Cellule hote recombinante selon la revendication 58, 
caracterisee en ce qu'il s'agit d'une levure ou d'un champignon filamenteux. 

61. Collection de cellules hotes recombinantes, chacune des 
cellules hotes constitutives de la collection comprenant un acide nucleique 
de la collection d'acides nucleiques selon la revendication 30. 

62. Collection de cellules hotes recombinantes, chacune des 
cellules hotes constitutives de la collection comprenant un vecteur 
recombinant selon Tune des revendications 41 ou 55. 

63. Procede de detection d'un acide nucleique de sequence 
nucleotidique d6terminee, ou de sequence nucleotidique structurellement 
apparentee a une sequence nucleotidique determinee, dans une collection 
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de cellules hotes recombinantes selon I'une des revendications 61 ou 62, 
caracterise en ce qu'il comprend les etapes suivantes : 

- mettre en contact la collection de cellules hotes recombinantes avec 
un couple d'amorces hybridant avec la sequence nucleotidique 
determinee ou hybridant avec la sequence nucleotidique 
structurellement apparentee a une sequence nucleotidique 
determinee ; 

- realiser au moins trois cycles d'amplification ; 

- detecter I'acide nucleique eventuellement amplifie.. 

64. Procede de detection d'un acide nucleique de sequence 
nucleotidique determinee, ou de sequence nucleotidique structurellement 
apparentee a une sequence nucleotidique determinee, dans une collection 
de cellules hotes recombinantes selon I'une des revendications 61 ou 62, 
caracterise en ce qu'il comprend les etapes suivantes : 

- mettre en contact la collection de cellules hdtes recombinantes avec 
une sonde hybridant avec la sequence nucleotidique determinee ou 
hybridant avec une sequence nucleotidique structurellement 
apparentee a la sequence nucleotidique determinee ; 

- detecter I'hybride eventuellement forme entre la sonde et les acides 
nucleiques compris dans les vecteurs de la collection. 

65. Procede pour identifier la production d'un compose d'interet par 
une ou plusieurs cellules hotes recombinantes dans une collection de 
cellules hotes recombinantes selon I'une des revendications 61 ou 62, 
caracterise en ce qu'il comprend les etapes suivantes : 

- culture des cellules h6tes recombinantes de la collection dans un 
milieu de culture approprie ; 

- detection du compose d'interet dans le surnageant de culture ou dans 
le lysat cellulaire d'une ou plusieurs des cellules h6tes recombinantes 
cultivees. 

66 Procede pour selectionner une cellule hote recombinante 
produisant un compose d'interet dans une collection de cellules hotes 
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recombinantes selon Tune des revendications 61 ou 62, caracterise en ce 
qu'il comprend les etapes suivantes : 

- culture des cellules hotes recombinantes de la collection dans un 
milieu de culture approprie ; 

- detection du compost d'interet dans le surnageant de culture ou dans 
le lysat cellulaire d'une ou plusieurs des cellules hotes recombinantes 
cultivees. 

- selection des cellules hotes recombinantes produisant le compose 
d'interet. 

67. Procede pour la production d'un compose d'interet caracteris§ 
en ce qu'il comprend les etapes suivantes : 

- cultiver d'une cellule hote recombinante selectionnee selon le procede 
de la revendication 66; 

- recuperer et, le cas echeant, purifier, le compose produit par ladite 
cellule hote recombinante. 

68. Compose d'interet caracterise en ce qu'il est obtenu selon le 
procede de la revendication 67. 

69. Compose selon la revendication 68, caracterise en ce qu'il s'agit 
d'un polyketide. 

70. Polyketide caracterise en ce qu'il est produit grace a 
I'expression d'au moins une sequence nucleotidique comprenant une 
sequence choisie parmi les sequences SEQ ID N°30 a 44 et SEQ ID N°115 
a 120. 

71. Composition comprenant un polyketide selon la revendication 
69 ou 70. 

72. Composition pharmaceutique comprenant une quantite 
pharmacologiquement active d'un polyketide selon la revendication 69 ou 70, 
en association avec un vehicule pharmaceutiquement compatible. 
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73. Procede de determination de la diversite des acides nucleiques 
contenus dans une collection d'acides nucleiques et tout particulierement 
d'une collection d'acides nucleiques provenant d'un echantillon de 
I'environnement, preferentiellement d'un echantillon du sol, ledit procede 
comprenant les etapes suivantes: 

- mise en contact des acides nucleiques de la collection d'acides 
nucleiques a tester avec un couple d'amorces oligonucleotidiques hybridant 
a toute sequence d'ADN ribosomal 16 S bacterien; 

- realisation d'au moins trois cycles d'amplification; 

- detection des acides nucleiques amplifies £ I'aide d'une sonde 
oligonucleotidique ou d'une pluralite de sondes oligonucleotidiques, chaque 
sonde hybridant specifiquement avec une sequence d'ADN ribosomal 16 S 
commune a un regne, un ordre, une sous-classe ou un genre bacterien; 

- le cas echeant, comparer les resultats de I'etape de detection 
precedente avec les resultats de detection, a I'aide de la sonde ou de la 
pluralite de sondes, d'acides nucleiques de sequence connue constituant 
une gamme etalon. 

74. Procede selon la revendication 73, caracterise en ce que le 
couple d'amorces hybridant a toute sequence d'ADN ribosomal 16 S 
bacterien est constitu6 de I'amorce FGPS 612 (SEQ ID N°12) et de I'amorce 
FGPS 669 (SEQ ID N°13). 

75. Procede selon la revendication 73, caracteris6 en ce que le 
couple d'amorces hybridant a toute sequence d'ADN ribosomal 16 S 
bacterien est constitue de I'amorce 63 f (SEQ ISD N°22) et de I'amorce 1387 
(SEQ ID N°23). 

76. Acide nucleique comprenant une sequence nucleotidique 
d'ADNr 16S choisie parmi les sequences possedant au moins 99% d'identite 
en nucleotides avec les sequences SEQ ID N° 60 a SEQ ID N° 106. 

77. Procede de production d'une polyketide synthase de type I, ledit 
procede de production comprenant les etapes suivantes: 

- obtention d'une cellule hote recombinante comprenant un acide 
nucleique codant pour une polyketide synthase de type I comprenant une 
sequence nucleotidique choisie parmi les sequences SEQ ID N°33 a SEQ ID 
N°44, SEQ ID N°30 a SEQ ID N°32 et SEQ ID N° 1 15 a SEQ ID N°120. 
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- culture des cellules hotes recombinantes dans un milieu de culture 
approprte; 

- recuperation et, le cas echeant, purification de la polyketide 
synthase de type I a partir du surnageant de culture ou du lysat cellulaire. 

78. Polyketide synthase comprenant une sequence decides 
amines choisie parmi les sequences SEQ ID N°45 a 59 et SEQ ID N° 121 a 
SEQ ID N°126. 

79. Anticorps dirige contre une polyketide synthase selon la 
revendication 78. 

80. Precede de detection d'une polyketide synthase de type I ou 
d'un fragment peptidique de cette enzyme, dans un echantillon, ledit precede 
comprenant les etapes de: 

a) mettre en contact un anticorps selon la revendication 79 avec 
I'echantillon a tester; 

b) detecter le complexe antigene/anticorps eventuellement forme. 

81. Necessaire de detection d'une polyketide synthase de type I 
dans un Echantillon comprenant: 

a) un anticorps selon la revendication 79; 

b) le cas Echeant, des reactifs necessaires a la detection du 
complexe antigene/anticorps Eventuellement forme. 
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<210> 1 
<211> 15 
<212> ADN 

<213> Sequence artificielle 
<220> 

<223> Description de la sequence artificielle : sonde 
FGPS4 31 

<220> 

<221> variation 
<222> (14) 

<223> Base A remplacee par G 
<400> 1 

acgggcggtg tgtac 15 

<210> 2 
<211> 22 
<212> ADN 

<213> Sequence artificielle 
<220> 

<223> Description de la sequence artificielle : amorce 
FGPS122 

<400> 2 

ggagagtttg atcatggctc ag 22 
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<210> 3 
<211> 20 
<212> ADN 

<213> Sequence artificielle 
<220> 

<223> Description de la sequence artificielle : amorce 
FGPS3 50 

<400> 3 

cctggagtta agccccaagc 



<210> 4 
<211> 24 
<212> ADN 

<213> Sequence artificielle 
<220> 

<223> Description de la sequence artificielle : sonde 
FGPS643 

<220> 

<221> variation 
<222> (20) 

<223> T remplacee par C 
<400> 4 

gtgagtnnna acctgcccct gact 



<210> 5 
<211> 21 
<212> ADN 

<213> Sequence artificielle 
<220> 

<223> Description de la setquBiice artificielle : sonde 
FGPS643-2 

<400> 5 

gtgagtaacc tgcccccgac t 



<210> 6 
<211> 23 
<212> ADN 

<213> Sequence artificielle 
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<220> 

<223> Description de la sequence art if icielle : amorce 
R499 

<400> 6 

ttaattcact tgcaactgat ggg 23 



<210> 7 
<211> 23 
<212> ADN 

<213> Sequence artificielle 
<220> 

<223> Description de la sequence artificielle : amorce 
R500 

<400> 7 

aacgatagct cctacatttg gag 23 



<210> 8 
<211> 25 
<212> ADN 

<213> Sequence artificielle 
<220> 

<223> Description de la sequence art if icielle : sonde C501 
<400> 8 

ttgctgatac ggtatagaac ctggc 25 

<210> 9 
<211> 20 
<212> ADN 

<213> Sequence artificielle 
<220> 

<223> Description de la sequence artificielle : amorce 
FGPS516 

<400> 9 

tccagatcct tgacccgcag 2 0 

<210> 10 
<211> 20 
<212> ADN 

<213> Sequence artificielle 
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<220> 

<223> Description de la sequence artificielle : amorce 
FGPS517 

<400> 10 

cacgacattg cactccaccg 



<210> 11 
<211> 16 
<212> ADN 

<213> Sequence artificielle 
<220> 

<223> Description de la sequence artificielle : sonde 
FGPS518 

<400> 11 

ccgtgagccg gatcag 



<210> 12 
<211> 20 
<212> ADN 

<213> Sequence artificielle 
<220> 

<223> Description de la sequence artificielle : FGPS612 
<220> 

<221> variation 
<222> (2) 

<223> Base C remplacee par T 
<220> 

<221> variation 
<222> (7) 

<223> Base T remplacee par C 
<220> 

<221> variation 
<222> (7) 

<223> Base T remplacee par A 
<400> 12 

ccaacttcgt gccagcagcc 



<210> 13 
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<211> 21 
<212> ADN 

<213> Sequence artificielle 
<220> 

<223> Description de la sequence artif icielle : FGPS669 
<220> 

<221> variation 
<222> (7) 

<223> Base A remplacee par G 
<220> 

<221> variation 
<222> (13) 

<223> Base A remplacee par C 
<400> 13 

gacgtcatcc ccaccttcct c 21 



<210> 14 
<211> 18 
<212> ADN 

<213> Sequence artificielle 
<220> 

<223> Description de la sequence artif icielle : FGPS618 
<220> 

<221> variation 
<222> (5) 

<223> Base T remplacee par C 
<400> 14 

atggttgtcg tcagctcg 18 

<210> 15 
<211> 21 
<212> ADN 

<213> Sequence artificielle 
<220> 

<223> Description de la sequence artif icielle : FGPS614 
<400> 15 

gtgtagaagt gaaattcgat t 21 
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<210> 16 
<211> 18 
<212> ADN 

<213> Sequence artificielle 
<220> 

<223> Description de la sequence artificielle : FGPS615 
<400> 16 

cggtggatga tgtggatt 

<210> 17 
<211> 18 
<212> ADN 

<213> Sequence artificielle 
<220> 

<223> Description de la sequence art if icielle : FGPS616 
<400> 17 

aggttaaaac tcaaatga 

<210> 18 
<211> 18 
<212> ADN 

<213> Sequence artificielle 
<220> 

<223> Description de la sequence artificielle : FGPS62 1 
<400> 18 

atacgtaggt ggcaagcg 

<210> 19 
<211> 19 
<212> ADN 

<213> Sequence artificielle 
<220> 

<223> Description de la sequence artificielle : FGPS617 
<400> 19 

gccggggtca actcggagg 

<210> 20 
<211> 18 
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<212> ADN 

<213> Sequence artificielle 
<220> 

<223> Description de la sequence artificielle : FGPS680 
<220> 

<221> variation 
<222> (11) 

<223> Base A remplacee par C 
<220> 

<221> variation 
<222> (11) 

<223> Base A remplacee par T 
<220> 

<221> variation 
<222> (13) 

<223> Base T remplacee par A 
<400> 20 

tgagtcccca actccccg 

<210> 21 
<211> 20 
<212> ADN 

<213> Sequence artificielle 
<220> 

<223> Description de la sequence artificielle : FGPS619 
<400> 21 

gcttggggct taactccagg 

<210> 22 
<211> 21 
<212> ADN 

<213> Sequence artificielle 
<220> 

<223> Description de la sequence artificielle : amorce 6 
<400> 22 

caggcctaac acatgcaagt c 
<210> 23 
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<211> 18 
<212> ADN 

<213> Sequence artificielle 
<220> 

<223> Description de la sequence artificielle : amorce 
1387r 

<400> 23 

gggcggngtg tacaaggc 

<210> 24 
<211> 30 
<212> ADN 

<213> Sequence artificielle 
<220> 

<223> Description de la sequence art if icielle : oligo- 1 



<400> 24 

gcttatttaa atattaagcg gccgcccggg 

<210> 25 
<211> 28 
<212> ADN 

<213> Sequence artificielle 



30 



<220> 

<223> Description de la sequence artificielle : oligo-2 
<400> 25 

cccgggcggc cgcattaata tttaaata 

<210> 26 
<211> 23 
<212> ADN 

<213> Sequence artificielle 
<220> 

<223> Description de la sequence artificielle : amorce al 
<400> 26 

ccncagnagc gcntnttnct nga 

<210> 27 
<211> 22 
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<212> ADN 

<213> Sequence artificielle 
<220> 

<223> Description de la sequence artificielle : amorce a2 
<400> 27 

gtnccngtnc cgtgngtntc na 22 

<210> 28 
<211> 23 
<212> ADN 

<213> Sequence artificielle 
<220> 

<223> Description de la sequence artificielle : amorce bl 
<400> 28 

ccncagnagc gcntnctnct nga 2 3 

<210> 29 
<211> 22 
<212> ADN 

<213> Sequence artificielle 
<220> 

<223> Description de la sequence art if icielle : amorce b2 
<400> 29 

gtnccngtnc cgtgngcctc na 22 

<210> 30 
<211> 672 
<212> ADN 

<213> Streptomyces ambofaciens 
<400> 30 

ccccagcagc acgtgttcct cgagacggtg tgggagacct tcgaatccgc cggagtggac 60 
ccgcgcgcgg tacgcggtcg ttccgtcggg atgttcgtcg gcaccaacgg acaggactac 12 0 
ccggtggtgt tggccggatc cgccgacgag ggcctggacg cccacgcggc caccggtaac 18 0 
gcggcggcgg tgctgtccgg ccgggtctcg tacgccttcg gcctggaagg gccggcggtc 24 0 
accgtcgaca cggcgtgttc gtcgtcgctg gtggcccttc acctggccgc gcaggcgctg 300 
cggcgcggcg agtgcgatct ggcactcgcc ggcggtgtgt cggagatgtc caccgaggcg 360 
gcgttcaccg agttcgcccg gcagggcggc ctggccgacg acggccgctg caaggccttc 420 
tcggccgacg ccgacggcac gggctggggc gagggcgtcg gcgtcctgct ggtggagcgg 480 
ctggcggacg cccgccgcaa cgggcaccgg gccctcgcgc tggtacgggg cagcgcggtc 54 0 
aaccaggacg gcgcctccaa cggtctgacg gcacccaacg gcccgtccca gcagcgagtc 600 
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atccggcagg cactggcgga cgcccggctg tcgccgtcgg aggtcgacgc ggtcgagacc 660 
cacggcaccg gc ~ ~ 672 



<210> 31 
<211> 665 
<212> ADN 

<213> Streptomyces ambofaciens 
<400> 31 

ccccagcagc gcgtgttcct ggaagcgtcc tgggaggcgg tcgagcgggc aggcatcgac 60 
atgcgcaccc tgcgcggtgg acgcaccggc gtcttcgccg gcgtgatgta ccacgactac 120 
ccgtcggtgg tcgaccccga agcgctcgac ggctacctgg gcacggccaa cgccggcagc 180 
gttctctccg gccgcatcgc ctacaccttc gggcttcagg gaccggcggt caccgtggac 240 
acggcctgct cctcgtccct ggtggcgctg cacctcgccg cccaggcgct gcccgccggc 3 00 
gagtgcgaac tcgccctggt cggtggggtc acggtcatgt ccggcccgat gatgttcgcg 360 
ggcttcggcc tggaagacgg ctctgccgcc gacggccgct gcaaggcgtt cgccgccgcc 420 
gccgacggca ccggctgggg cgagggtgtc ggtgtgctgc tggtggagcg gctgtcggac 480 
gcccggcgcc acgggcaccg ggtgctggcc gtggtgcgcg gtagcgcggt caaccaggac 540 
ggtgcctccg gcggcctcac cgcccccaac ggacctgccc agcagcgcgt catccgtcag 600 
gccctggcga gcgcggcact cgtaccggcc gaggtcgacg cggtcgagac ccacggcacc 660 



<210> 32 
<211> 671 
<212> ADN 

<213> Saccharopolyspora erythraea 
<400> 32 

ccgcaggagc gcgtgttcct ggaactcgct tgggaagcac ttgataacgc gggcatcgca 60 
ccgcacagcc tcagggacag ccggacgggc gtgttcttcg gagctatgtg gcacggctac 12 0 

gcgcagttcg cagccggagc cgtcgaccgc atcacccagc acaccgcgac cgggcacgac 18 0 

ctgagcatca tcccggccag gatcgcctac ttcctgggct tgcgcggccc ggacatgacc 240 

ctgaacaccg cgtgctcatc ggctttggtg gccatgcacc aggcacgcca aagcatcctg 300 

ctgggcgaat cctcggtcgc cttggtcggc gggatcagct tgttggtcgc gctggacagc 360 

atggtcgcca tgtcgcggtt cggagcgatg gccccggacg gccggtgcaa ggcattcgac 420 

tctcgcgcga acggctacgt gcgcggcgaa ggcggcggtg tcgtggtgct caaaccgctg 480 

tcgcgcgctc tggccgatgg caacccggtc tactgcgtcc tgcgcggcag cgcggtcaac 54 0 

aacgacggct tcagcaatgg ccttaccgcg ccgagcccgg cggcgcagga gcaggtactg 600 

cgcgacgcct acgccaacgc cggggtcgat ccggcacagg tcgactacgt cgagacccac 660 
gggaccggca c 671 

<210> 33 
<211> 686 
<212> ADN 

<213> Organime Inconnu 
<220> 



: <WO 0140497A2_I_> 
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<223> Origine de la sequence :organisme du sol 
<400> 33 

ccgcaggagc gcgtgttcct cgagtcgtgc tgggaggcgc tggagcatgc tggatacgat 60 

actgcacgct accccggccg catcgggctg tgggccggcg cgggcttcaa cagctacctc 120 

ctgaccaatc tcatgaacaa ccgcgccttt ttagagagcg tgggcatgta ccagatcttt 180 

ctgagcaacg acaaggactt catcgccacc cgcacggctt acaagttaaa cctgcgcggt 240 

ccggcgatgg ccgtcggcac cgcctgttcc acatcgctgg tggcggttca cgaagcttgc 300 

caggcgctgc ggctgggcga gtgtgacatg gcactggccg gtgctgcgtc tgtcagcacg 3 60 

cccctccggg agggctacct ctaccaggaa ggcatgatta tgagccgtga cggcgtctgc 420 

cgcccgtttg acgccgacgc cgatggcacg gtgctgggca atggcgtggc ggtcgtggtg 480 

ctcaagcggc tggacgaagc gctccgggac ggtgacacgg tctacgccgt gattcgtggc 54 0 

acggcggtca acaacgacgg ctctgtcaag atcgggttca cggcgcccag cgccgagggg 600 

cagagccggg tcgtgcggga cgccctgcgg gcggccgcgg tcccggcgga gagcgtgacc 660 

tacgtcgaca cgcacggcac cggcac 686 



<210> 34 
<211> 689 
<212> ADN 

<213> Organime Inconnu 
<220> 

<223> Origine de la sequence :organisme du sol 
<400> 34 

ccccagcagc gcctgttcct cgagtgcgcg tgggaagcga tggagaacgc gggatatgcg 6 0 
gcgcgaagct ataagggttc gatcggcgtt ttcgcgggat gcggcgtcaa tacctacctg 120 
ctgaacaacc tcgccaccgc ggagccgttc gatttctcac gcccctccgc gtaccagctg 180 
ctgacggcca acgacaagga tttcctggcc acgcgtgtct cttacaagct gaacctccgc 240 
gggcccagcc tgacggttca gacggcgtgc tccacctcgc tggtgtcggt ggtgatggca 300 
tgcgagagct tgcagcgcgg cgcctcggac attgccttgg ccgggggagt tgccatcaat 360 
gttccgcagt ccgtggggta cctgcaccag ccgggcatga tcctgtcgcc cgacgggcgc 420 
tgccgcgcct tcgatgagtc cgctcaaggc acggtgccgg gcaacggcgc gggtgtggtc 480 
gtcctcaagc gcttgagccg cgctctggcc gatggcgaca cgatctacgc cgtcattcgc 540 
ggagcggcta ttaataatga tggcgccgag cgcatggggt ttaccgctcc aggtgtggac 600 
ggtcagacgc gattgattcg gcgcactcaa gagatggcgg gcgtgaagcc ggagtccatc 660 
ggctacatgg acacccacgg caccggcac 689 



<210> 35 
<211> 671 
<212> ADN 

<213> Organime Inconnu 
<220> 

<22 3> Origine de la sequence :organisme du sol 
<400> 35 

ccgcagcagc gcctcttcct cgaggtggca tgggaagctt tggagcgtgc gggtcggccg 60 
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cccgacagtc tcgcgggcag cgacaccgga gtgttcatcg ggatcagcac cgacgactac 120 
agccggctga aacctaccga tccggcgctc attgacgcct ataccggtac cggaaccgcg 180 
ttcagcactg ccgccggacg gatctcctat ctgctggggt tgcagggacc gaacttcccc 240 
gtcgacacgg cgtgctcttc ctcactcgtg gcggttcatc tggcgtgccg cagcttgcag 300 
tcgcgagagt gcagcatggc gctggccggc ggcgtgaacc tgattctggc gccggaaagc 360 
acgatctact tctgccgcct gcgggccatg gcggccgatg gccgttgcaa aagtttcgct 420 
gcctccgccg acggttacgg ccgcggcgag ggatgcggaa tgctggtgct gaagcggctg 48 0 
tccgatgcga cgcgtgacgg cgatcgtatt ctggcgctga ttcgcggatc ggccgtcaac 540 
cacggcggcc gcagcaacgg cctcacggcg ccgaacggtc cggcgcagga agccgtgatt 600 
cgggcggcgc tcaagaacgc cggcatggcc cccgccgatg tcgattacgt ggacacccac 660 
ggcaccggca c ~ ~ 671 



<210> 36 
<211> 758 
<212> ADN 

<213> Organime Inconnu 
<220> 

<223> Origine de la sequence rorganisme du sol 
<400> 36 

ccgcaggagc gcgtcttcct cgaacgcatt gacggtttcg atgcggaatt cttcggcatc 60 
tccccccgcg aagctctgaa catggatccg cagcagcggc tgctgctgga agtgtgctgg 120 
gaagcggcag aggacgccgg catctctccc ggccctctgg cgggcagcgc gaccggcgtc 180 
tttgccggct cctgcgccca ggacttcgga ctgtttcagt acgccgaccc tgcccgcatc 240 
ggagcttggt cgggttccgg cgtggcgcat agcatgttgg ccaatcgcat ctcctatctg 3 00 
ctcgacctgc gcggtccgag catggcggtc gatacggcct gctcctccgc gctcgtcgcc 3 60 
gtccatctgg cttgccaaag cctgcgccgg cgcgaatgcg atgcggcatt cgccggcgga 42 0 
gtgaacttga tcctgactcc cgagggcatg atcgctttgt cgaaggctcg catgttggcg 480 
cccgacggac gctgcaagac gttcgacgcc gcagccgacg gttatgtgcg cggcgagggc 540 
tgcggcatcg tgctgctgaa gcggctctcc gatgcgctgg ccgatggcga tgccatctgt 600 
gcagtcatcc gcggctcggc aatcaatcag gacggacgga gcaatggcat cacggcgccg 660 
aatctgcagg cgcagaaggc ggtcctgcaa gaggcggtgg ccaacgcgca catcgatcca 72 0 
tcccacgtat cgttgatcga cacgcacggc accggcac ^ 758 



<210> 37 
<211> 704 
<212> ADN 

<213> Organime Inconnu 
<220> 

<223> Origine de la sequence rorganisme du sol 
<400> 37 

ccgcagcagc gcgtgttcct cgagtgcgcc tgggaggcgg tggaaagcgc gggctacgat 60 
cccgaaaaat atcccggcct gatcggagtt ttcgccgggg ccagcatcaa cagctatttc 120 
ctttataacc tcgcgcacaa ccgggaattc gtcgcccgca tggcggggga gtaccaagtg 180 
ggcgagtacc agacgatcct cggaaacgac aaggactacc tccccactcg cgtctcctac 240 



: <WO 0140497A2_I_> 



WO 01/40497 



13 



PCT/FR00/03311 



aaattgaacc tgcgcggccc cagcctggcc gtgcagtccg cctgctcgac cggcctcgtc 300 
gccgtttgtc aggccattca aaatctgcag acttatcagt gcgatatggc cctcgcgggc 360 
ggcatctcga tttcgtttcc gcaaaagcgc gactaccgct tcaccgacga aggaatggtc 420 
tctcgcgacg gtcactgccg cccgttcgac gccagcgcgc aaggcacggt cttcggcaac 480 
ggggccggcg tcgtcctgat gaaaagattg gccgacgcag tgaccgatcg ggacacgatc 54 0 
ctcgccgtga ttaggggcgc tgccgtgaac aacgacggcg gcgtcaaaat gggttacacg 600 
gcgcccagtg ccgaaggtca ggcggaggcc atcaccctgg ccctcgcgct cgctggcgtc 660 
agcccggaga ccatcacttg catggacacc cacggcaccg gcac 704 



<210> 38 
<211> 680 
<212> ADN 

<213> Organime Inconnu 
<220> 

<223> Origine de la sequence rorganisme du sol 
<400> 38 

ccccagcagc gcgtgttcct cgaatgcgcc tgggcggcgc tggagcgccg ccggatatca 60 
gggcgacacc ttccacggtg tccatcggcg gtctatgcct caagcggctt taacacctat 120 
cttctgaacc tgcatgccaa tgccgcggtg cgccaatcga tcagcccgtt tgaactgttc 180 
gtcgccaacg acaaggattt tctggcgacg cgcacggctt acaagctcaa tctgcgcggc 24 0 
ccggccatga cagtgcagac ggcctgctcc tcatcgttgg ttgccgttca tgtcgccgcg 3 00 
caaagcctcc tagcgggcga atgcgatatt gcgctcgcgg gcggcatcac ggtttcccgt 3 60 
tcgcatggat atgtggcgcg cgaaggtgga atattgtctc ctgacgggca ttgccgggcg 420 
ttcgatgcgg atgccggcgg aaccgttcca ggcagcggcg tcggcgttgt cgtgctcaag 480 
cgtctcgaag atgcgcttgc agacggcgat acgatcgacg ccgtcatcat cggttcggcc 540 
atcaacaatg atggcgcgct gaaggcgagc tttaccgcac cgcaggtgga cagccaggcc 600 
ttggtcatca gcgaggccca tgcagctgcc ggaatatcgg ccgattccat cggttatatg 660 
gacacccacg gcaccgggac " 680 



<210> 39 
<211> 671 
<212> ADN 

<213> Organime Inconnu 
<220> 

<223> Origine de la sequence :organisme du sol 
<400> 39 

ccgcagcagc gcctcttcct cgagctcacc tgggaagcgc tggaagatgc cggcatcccg 60 
ccgtccacga ttgccggcac gaatgtcggc gttttcatgg gcgcgtcgca ggctgactac 120 
ggccacaagt tcttcagcga ccacgccgtc gcggattccc atttcgccac cggcacctcg 180 
ctggcggtcg tcgccaatcg catttcctac atctacgacc tgcgcggccc aagcctcact 240 
gtagacacgg cgtgctcgtc gtcgctcgtc gcgctgcatc aggcggtgga agcgctccgc 300 
tcggggcgga tcgaaacagc cattgtcggc ggcattaacg ttatcgccag cccggcgtcc 360 
ttcatcgcct tctcgcaggc ctcgatgctg tcgccgacgg ggttgtgcca ggctttctcc 420 
gccaaggccg atggctttgt ccgcggcgag ggcggcacgg ttttcgtcct gcgcaaggcg 480 
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gcgcatgcgc atggcagccg caacccggtg 
tccgacgggc gtaccaacgg catctcgctg 
caacgcgtct attcacgcgc atcgatcgat 
gggaccggca c 



cgcgggctca ttctcgccac cgacgtcaat 540 
ccatcggccg aagcgcagga agtcctcctg 600 
ccgaaccgcc tggctttcgt cgacacccac 660 

671 



<210> 40 
<211> 764 
<212> ADN 

<213> Organime Inconnu 
<220> 

<223> Origine de la sequence :organisme du sol 
<400> 40 

ccgcagcagc gcgtgttcct cgacggcatc gaccggttcg atccgcgtca cttcgcgatc 60 
acgccgcgcg aggcgatcag catggacccg cagcagcggc tcctgctcga ggtcacgtgg 120 
gaagcgctgg agcgcgccgg cgtggcgccc gatcgcctga ccggatccga caccggcgtc 180 
ttcatcggca tcagcaccaa cgactacggc cagatcctgc tgcgcgcctc ggaccagatc 240 
gatccgggga tgtacttcgg caccggcaac ctgttgaacg cggcggcggg acgcctctcg 3 00 
tacgtcctcg gcctgcaggg tccgagcatg gcggtcgaca ccgcatgtcc gtcgtcgctg 360 
gtggcgattc atctcgcgtg tcagagcctg cgcaaccgcg agtgccgcat ggcgctcgcc 420 
ggcggcgcca acctggtgct cgtcccggaa gtgacggtca actgctgccg cgccaagatg 480 
ctcgcgcctg acgggcgctg caagacgttc gacgccgcgg cggacggcta cgtccgcggc 540 
gaaggggccg cggtgatcgt gctgaagcgg ctctccgacg cgctggcgga cggcgatccg 600 
atcgtcgcgc tgatccgcgg atccgcggtc aatcaggacg gccgcagcgg cggcttcacc 660 
gcgccgaacg aactggcgca gcaggcggtg atccggaccg cgctcgcggc agcgggcgtc 720 
gccgcgtccg acatcggcta cgtggacacg cacggcaccg ggac 764 



<210> 41 
<211> 763 
<212> ADN 

<213> Organime Inconnu 
<220> 

<223> Origine de la sequence zorganisme du sol 
<400> 41 

ccgcagcagc gcgtgttcct cgacggcatc gaccgcttcg atccgcagtt tttcgggatc 60 
gcgccgcgcg aagcggccgg catcgatccg cagcagcggc tgctgctcga gacgacgtgg 120 
gaagcgctgg aagacgccgg gacgtcgccg gaaaagctgc agggaacccc ggccggcgtg 180 
ttcgtcggca tcaacagcat cgactacgcg acgctgcagc tgcagaactg cgatctggcc 240 
agcatcgacg cctattcgct ctccggcagc gcgcacagca tcgcggccgg gcggctcgcc 300 
tacgtgctcg gcctgcaggg gccggcgatg gcggtcgaca ccgcctgctc gtcgtcgctg 3 60 
gtcgcgatcc acctggcgtg ccagagcctg cgcaacgacg actgccgcgt cgccgtggcc 42 0 
ggcggcgtgc acgtcacgct gacgccgatc aacatggtcg tgttctcgaa gctgcgcatg 4 80 
ct 99cggcgg acggcaagtg caagacgttc gacggccgcg gcgacggatt cgtcgaaggc 540 
gagggctgcg cggtcatcgt cctcaagcgg ttgtcgcacg cgcttgccga caaggatcgg 600 
atcctcgcgc tggtgcgcgg ttcggcggtc aaccaggacg gcgcgagcag cggtctcacc 660 
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gcgccgaacg gtccggcgca ggaagcggtc atccgcgcgg cgttgaagcg ggccggcgtg 72 0 
cagccggcgg aggtcggcta cgtggacacc cacggcaccg gca 763 

<210> 42 
<211> 668 
<212> ADN 

<213> Organime Inconnu 
<220> 

<223> Origine de la sequence :organisme du sol 
<400> 42 

ccgcaggagc gcgtgctgct ggaatcctcg tggcatgcgc tggaagacgc cggctatgcc 60 
ggcgaaagca tcgccggcgc gcgctgcggc gtgtacatgg gcttcaacgg cggcgactac 120 
ggcgacctgc tgtacggcca gccgtcgctg ccgccgcacg cgatgtgggg caacgccgcc 180 
tcggtgctgt cggcgcgcat cgcctattac ctggacctgc aaggcccggc gatcaccctc 240 
gacaccgcct gttcgagctc gttggtcgcg gtgcatctgg cctgccaggg gctgtggacc 300 
ggcgagaccg atctggccct ggccggcggc gtgtggatcc agtgcacgcc cggattcctg 360 
atctcctcca gccgcgccgg catgctctcg ccgaccggcc agtgccgcgc gttcggcgcc 420 
ggcgccgacg gcttcgtgcc gtccgaaggc gtcggcgtgg tcgtgctcaa gcgcctgcag 480 
gacgcgctcg acgccggcga ccacatntac ggcgtgatcc gcggcagcgc gatcaaccag 54 0 
gacggcgcca gcaacggcat caccgcgccg agcgccgccg cccaggagcg cttgcagcgc 600 
cacgtctacg acagcttcgg catcgacgcc tcgcgcctgc agatgatcga ggcccacggc 660 
accggcac ~ 668 



<210> 43 
<211> 671 
<212> ADN 

<213> Organime Inconnu 
<220> 

<223> Origine de la sequence :organisme du sol 
<400> 43 

ccgcaggagc gcgtgctgct ggaggtgact tgggaggcac tcgaagacgc cggccaagac 60 
gtggaccgtc tggccgggcg gcccgtcggc gtcttcgtcg ggatctcgtc gaacgattac 120 
ggccagcttc agaacggcga cccggccgac gtggacgcct acgtcggcac cggtaacgcg 180 
ctgagcatcg ccgccaaccg actcagctac acgtttgact ttcgcggccc gagtctggcg 240 
gtggacacgg cgtgctcgtc ttcactcgtc gcgatccatc tcgcctgcca gagcgttcgc 300 
cgcggtgaag cggaactcgc cgtcgcggcc ggcgtcaact tgattctgac ccccggcctg 3 60 
acggtgaatt tcacccgcgc cggcatgatg gcgcctgacg gccggtgcaa gacgttcgac 420 
gcggccgcca acggctacgt gcgcggcgaa ggcgccggcg tcgtcgtgct caagccgctg 480 
gcccaggcta tcgccgacgg cgacccgatc tacgcgatcg tccgtggcag cgccgtcaac 540 
caggacggcc gttccaacgg cctcaccgcc ccgaaccgac aggcccaaga ggtcgtgctg 600 
cgggccgcgt atcgtgacgc gggcatcagc ccggccgatg tcgacgccgt cgaggcccac 660 
ggcaccggca c w " 671 
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<210> 44 
<211> 707 
<212> ADN 

<213> Organime Inconnu 
<220> 

<223> Origine de la sequence :organisme du sol 
<400> 44 

ccccagcagc gcgtgttcct cgaggacgcg actgaggtcg acgtggatgc gctttcagac 60 
ggcgaagacg tcgtgatcgc cggcatcatg cagcacatcg aggaggccgg catccactcg 120 
ggcgattcat cgtgcgtgct tccgccggtc gacatcccgc cgaaggcgct gcagacgatc 180 
cgcgatcaca cgttcaagct cgcgcgcgcg ttgaaggtca tcggcctgat gaacgtgcag 240 
tacgcgattc agcgcgacaa ggtctacgtg attgaggtaa accctagggc ttctcgaact 300 
gtcccgtatg tctcgaaggc gacaggcgtg ccgctggcga aggtcgcgtc acgcttgatg 360 
accggacgca aactgcacga gctgttgccg gaaggggtcg agcgcggctg gatcaccacc 420 
9 c 999 c 9aga atttctacgt gaagtcgccg gtcttcccgt ggggtaagtt cccgggcgtt 480 
gacactgtgc tcgggccgga gatgaaatcg accggcgaag tcatgggcgt cgccgacaac 540 
ttcggcgagg ccttcgccaa ggcacagatc gccgccggca catacctgcc gaccgaaggt 600 
accgtcttca tctcggtcaa cgaccgtgac aaaggcaacg tcattcagct ggcgcagcgt 660 
ttctccgaac tcggtttcgg cattgtcgac acgcacggca ccgggac 707 

<210> 45 
<211> 225 
<212> PRT 

<213> Streptomyces ambofaciens 
<400> 45 

Pro Gin Gin His Val Phe Leu Glu Thr Val Trp Glu Thr Phe Glu Ser 
15 10 15 

Ala Gly Val Asp Pro Arg Ala Val Arg Gly Arg Ser Val Gly Met Phe 
20 25 30 

Val Gly Thr Asn Gly Gin Asp Tyr Pro Val Val Leu Ala Gly Ser Ala 
35 40 45 

Asp Glu Gly Leu Asp Ala His Ala Ala Thr Gly Asn Ala Ala Ala Val 
50 55 60 

Leu Ser Gly Arg Val Ser Tyr Ala Phe Gly Leu Glu Gly Pro Ala Val 
65 70 75 80 

Thr Val Asp Thr Ala Cys Ser Ser Ser Leu Val Ala Leu His Leu Ala 

85 90 95 

Ala Gin Ala Leu Arg Arg Gly Glu Cys Asp Leu Ala Leu Ala Gly Gly 
100 105 110 
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Val Ser Glu Met Ser Thr Glu Ala Ala Phe Thr Glu Phe Ala Arg Gin 
115 120 125 

Gly Gly Leu Ala Asp Asp Gly Arg Cys Lys Ala Phe Ser Ala Asp Ala 
130 135 140 

Asp Gly Thr Gly Trp Gly Glu Gly Val Gly Val Leu Leu Val Glu Arg 
145 150 155 160 

Leu Ala Asp Ala Arg Arg Asn Gly His Arg Ala Leu Ala Leu Val Arg 
165 170 175 

Gly Ser Ala Val Asn Gin Asp Gly Ala Ser Asn Gly Leu Thr Ala Pro 
180 185 190 

Asn Gly Pro Ser Gin Gin Arg Val lie Arg Gin Ala Leu Ala Asp Ala 
195 200 205 

Arg Leu Ser Pro Ser Glu Val Asp Ala Val Glu Thr His Gly Thr Gly 
210 215 220 

Thr 
225 



<210> 46 
<211> 207 
<212> PRT 

<213> Streptomyces ambofaciens 
<400> 46 

Ala Ser Trp Glu Ala Val Glu Arg Ala Gly He Asp Met Arg Thr Leu 
1 5 io ' 15 

Arg Gly Gly Arg Thr Gly Val Phe Ala Gly Val Met Tyr His Asp Tyr 
20 25 30 

Pro Ser Val Val Asp Pro Glu Ala Leu Asp Gly Tyr Leu Gly Thr Ala 
35 40 45 

Asn Ala Gly Ser Val Leu Ser Gly Arg He Ala Tyr Thr Phe Gly Leu 
50 55 60 

Gin Gly Pro Ala Val Thr Val Asp Thr Ala Cys Ser Ser Ser Leu Val 
65 70 75 80 

Ala Leu His Leu Ala Ala Gin Ala Leu Pro Ala Gly Glu Cys Glu Leu 

85 90 95 
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Ala Leu Val Gly 
100 

Gly Phe Gly Leu 
115 

Phe Ala Ala Ala 
130 

Leu Leu Val Glu 
145 

Leu Ala Val Val 



Gly Leu Thr Ala 
180 

Ala Leu Ala Ser 
195 



Gly Val Thr Val 



Glu Asp Gly Ser 
120 

Ala Asp Gly Thr 
135 

Arg Leu Ser Asp 
150 

Arg Gly Ser Ala 
165 

Pro Asn Gly Pro 



Ala Ala Leu Val 
200 



Met Ser Gly Pro 
105 

Ala Ala Asp Gly 



Gly Trp Gly Glu 
140 

Ala Arg Arg His 
155 

Val Asn Gin Asp 
170 

Ala Gin Gin Arg 
185 

Pro Ala Glu Val 



Met Met Phe Ala 
110 

Arg Cys Lys Ala 
125 

Gly Val Gly Val 



Gly His Arg Val 
160 

Gly Ala Ser Gly 
175 

Val lie Arg Gin 
190 

Asp Ala Val 
205 



<210> 47 
<211> 223 
<212> PRT 

<213> Saccharopolyspora erythraea 
<400> 47 

Pro Gin Glu Arg Val Phe Leu Glu Leu Ala Trp Glu Ala Leu Asp Asn 
15 10 15 

Ala Gly lie Ala Pro His Ser Leu Arg Asp Ser Arg Thr Gly Val Phe 
20 25 30 

Phe Gly Ala Met Trp His Gly Tyr Ala Gin Phe Ala Ala Gly Ala Val 
35 40 45 

Asp Arg lie Thr Gin His Thr Ala Thr Gly His Asp Leu Ser He He 
50 55 60 

Pro Ala Arg He Ala Tyr Phe Leu Gly Leu Arg Gly Pro Asp Met Thr 
65 70 75 ~ * 80 

Leu Asn Thr Ala Cys Ser Ser Ala Leu Val Ala Met His Gin Ala Arg 

85 90 95 

Gin Ser He Leu Leu Gly Glu Ser Ser Val Ala Leu Val Gly Gly He 
100 105 110 
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Ser Leu Leu Val Ala Leu Asp Ser Met Val Ala Met Ser Arg Phe Gly 
115 120 125 

Ala Met Ala Pro Asp Gly Arg Cys Lys Ala Phe Asp Ser Arg Ala Asn 
130 135 140 

Gly Tyr Val Arg Gly Glu Gly Gly Gly Val Val Val Leu Lys Pro Leu 
145 150 155 ~ 160 

Ser Arg Ala Leu Ala Asp Gly Asn Pro Val Tyr Cys Val Leu Arg Gly 

165 170 175 

Ser Ala Val Asn Asn Asp Gly Phe Ser Asn Gly Leu Thr Ala Pro Ser 
180 185 190 

Pro Ala Ala Gin Glu Gin Val Leu Arg Asp Ala Tyr Ala Asn Ala Gly 
195 200 205 

Val Asp Pro Ala Gin Val Asp Tyr Val Glu Thr His Gly Thr Gly 
210 215 220 



<210> 48 
<211> 211 
<212> PRT 

<213> Organime Inconnu 
<220> 

<223> Origine de la sequence rorganisme du sol 
<400> 48 

Ser Cys Trp Glu Ala Leu Glu His Ala Gly Tyr Asp Thr Ala Arg Tyr 
1 5 10 15 

Pro Gly Arg He Gly Leu Trp Ala Gly Ala Gly Phe Asn Ser Tyr Leu 
20 25 30 

Leu Thr Asn Leu Met Asn Asn Arg Ala Phe Leu Glu Ser Val Gly Met 
35 40 45 

Tyr Gin He Phe Leu Ser Asn Asp Lys Asp Phe He Ala Thr Arg Thr 
50 55 60 

Ala Tyr Lys Leu Asn Leu Arg Gly Pro Ala Met Ala Val Gly Thr Ala 
65 70 75 ~ 80 

Cys Ser Thr Ser Leu Val Ala Val His Glu Ala Cys Gin Ala Leu Arg 

85 90 95 
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Leu Gly Glu Cys 
100 

Pro Leu Arg Glu 
115 

Asp Gly Val Cys 
130 

Gly Asn Gly Val 
145 

Arg Asp Gly Asp 



Asn Asp Gly Ser 
180 

Gin Ser Arg Val 
195 

Glu Ser Val 
210 



Asp Met Ala Leu 



Gly Tyr Leu Tyr 
120 

Arg Pro Phe Asp 
135 

Ala Val Val Val 
150 

Thr Val Tyr Ala 
165 

Val Lys lie Gly 



Val Arg Asp Ala 

200 



Ala Gly Ala Ala 
105 

Gin Glu Gly Met 



Ala Asp Ala Asp 
140 

Leu Lys Arg Leu 
155 

Val He Arg Gly 
170 

Phe Thr Ala Pro 
185 

Leu Arg Ala Ala 



Ser Val Ser Thr 
110 

He Met Ser Arg 
125 

Gly Thr Val Leu 



Asp Glu Ala Leu 
160 

Thr Ala Val Asn 
175 

Ser Ala Glu Gly 
190 

Ala Val Pro Ala 
205 



<210> 49 
<211> 229 
<212> PRT 

<213> Organime Inconnu 
<220> 

<223> Origine de la sequence :organisme du sol 
<400> 49 

Pro Gin Gin Arg Leu Phe Leu Glu Cys Ala Trp Glu Ala Met Glu Asn 
15 10 15 

Ala Gly Tyr Ala Ala Arg Ser Tyr Lys Gly Ser He Gly Val Phe Ala 
20 25 30 

Gly Cys Gly Val Asn Thr Tyr Leu Leu Asn Asn Leu Ala Thr Ala Glu 
35 40 45 

Pro Phe Asp Phe Ser Arg Pro Ser Ala Tyr Gin Leu Leu Thr Ala Asn 
50 55 60 

Asp Lys Asp Phe Leu Ala Thr Arg Val Ser Tyr Lys Leu Asn Leu Arg 
65 70 75 80 
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Gly Pro Ser Leu 



Val Val Met Ala 
100 

Leu Ala Gly Gly 
115 

His Gin Pro Gly 
130 

Asp Glu Ser Ala 
145 

Val Leu Lys Arg 



Ala Val He Arg 
180 

Gly Phe Thr Ala 
195 

Thr Gin Glu Met 
210 

Thr His Gly Thr 
225 



Thr Val Gin Thr 
85 

Cys Glu Ser Leu 



Val Ala He Asn 
120 

Met He Leu Ser 
135 

Gin Gly Thr Val 
150 

Leu Ser Arg Ala 
165 

Gly Ala Ala He 



Pro Gly Val Asp 
200 

Ala Gly Val Lys 
215 

Gly 



Ala Cys Ser Thr 
90 

Gin Arg Gly Ala 
105 

Val Pro Gin Ser 



Pro Asp Gly Arg 
140 

Pro Gly Asn Gly 
155 

Leu Ala Asp Gly 
170 

Asn Asn Asp Gly 
185 

Gly Gin Thr Arg 



Pro Glu Ser He 
220 



Ser Leu Val Ser 
95 

Ser Asp He Ala 
110 

Val Gly Tyr Leu 
125 

Cys Arg Ala Phe 



Ala Gly Val Val 
160 

Asp Thr lie Tyr 
175 

Ala Glu Arg Met 
190 

Leu He Arg Arg 
205 

Gly Tyr Met Asp 



<210> 50 
<211> 223 
<212> PRT 

<213> Organime Inconnu 
<220> 

<223> Origine de la sequence rorganisme du sol 
<400> 50 

Pro Gin Gin Arg Leu Phe Leu Glu Val Ala Trp Glu Ala Leu Glu Arg 
15 10 15 

Ala Gly Arg Pro Pro Asp Ser Leu Ala Gly Ser Asp Thr Gly Val Phe 
20 25 ~ 30 

lie Gly He Ser Thr Asp Asp Tyr Ser Arg Leu Lys Pro Thr Asp Pro 
35 40 45 
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Ala Leu lie Asp 
50 

Ala Gly Arg He 
65 

Val Asp Thr Ala 



Arg Ser Leu Gin 
100 

Asn Leu He Leu 
115 

Ala Met Ala Ala 
130 

Gly Tyr Gly Arg 
145 

Ser Asp Ala Thr 



Ser Ala Val Asn 
180 

Gly Pro Ala Gin 
195 

Met Ala Pro Ala 
210 



Ala Tyr Thr Gly 
55 

Ser Tyr Leu Leu 
70 

Cys Ser Ser Ser 
85 

Ser Arg Glu Cys 



Ala Pro Glu Ser 
120 

Asp Gly Arg Cys 
135 

Gly Glu Gly Cys 
150 

Arg Asp Gly Asp 
165 

His Gly Gly Arg 



Glu Ala Val He 
200 

Asp Val Asp Tyr 
215 



Thr Gly Thr Ala 
60 

Gly Leu Gin Gly 
75 

Leu Val Ala Val 
90 

Ser Met Ala Leu 
105 

Thr He Tyr Phe 



Lys Ser Phe Ala 
140 

Gly Met Leu Val 
155 

Arg He Leu Ala 
170 

Ser Asn Gly Leu 
185 

Arg Ala Ala Leu 



Val Asp Thr His 
220 



Phe Ser Thr Ala 



Pro Asn Phe Pro 
80 

His Leu Ala Cys 
95 

Ala Gly Gly Val 
110 

Cys Arg Leu Arg 
12 5 

Ala Ser Ala Asp 



Leu Lys Arg Leu 
160 

Leu He Arg Gly 
175 

Thr Ala Pro Asn 
190 

Lys Asn Ala Gly 
205 

Gly Thr Gly 



<210> 51 
<211> 252 
<212> PRT 

<213> Organime Inconnu 
<220> 

<223> Origine de la sequence :organisme du sol 
<400> 51 

Pro Gin Glu Arg Val Phe Leu Glu Arg He Asp Gly Phe Asp Ala Glu 
1 5 10 15 

Phe Phe Gly He Ser Pro Arg Glu Ala Leu Asn Met Asp Pro Gin Gin 
20 25 30 
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Arg Leu Leu Leu Glu Val Cys Trp Glu Ala Ala Glu Asp Ala Gly lie 
35 40 45 

Ser Pro Gly Pro Leu Ala Gly Ser Ala Thr Gly Val Phe Ala Gly Ser 
50 55 60 

Cys Ala Gin Asp Phe Gly Leu Phe Gin Tyr Ala Asp Pro Ala Arg lie 
65 70 75 80 

Gly Ala Trp Ser Gly Ser Gly Val Ala His Ser Met Leu Ala Asn Arg 

85 90 95 

lie Ser Tyr Leu Leu Asp Leu Arg Gly Pro Ser Met Ala Val Asp Thr 
100 105 110 

Ala Cys Ser Ser Ala Leu Val Ala Val His Leu Ala Cys Gin Ser Leu 
115 120 125 

Arg Arg Arg Glu Cys Asp Ala Ala Phe Ala Gly Gly Val Asn Leu lie 
130 135 140 

Leu Thr Pro Glu Gly Met lie Ala Leu Ser Lys Ala Arg Met Leu Ala 
145 150 155 ~ 160 

Pro Asp Gly Arg Cys Lys Thr Phe Asp Ala Ala Ala Asp Gly Tyr Val 
165 170 ' 175 

Arg Gly Glu Gly Cys Gly lie Val Leu Leu Lys Arg Leu Ser Asp Ala 
180 185 190 

Leu Ala Asp Gly Asp Ala lie Cys Ala Val lie Arg Gly Ser Ala lie 
195 200 205 

Asn Gin Asp Gly Arg Ser Asn Gly He Thr Ala Pro Asn Leu Gin Ala 
210 215 220 

Gin Lys Ala Val Leu Gin Glu Ala Val Ala Asn Ala His He Asp Pro 
225 230 235 240 

Ser His Val Ser Leu He Asp Thr His Gly Thr Gly 
245 250 



<210> 52 

<211> 234 

<212> PRT 

<213> Organime Inconnu 
<220> 
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<223> Origine de la sequence rorganisme du sol 
<400> 52 

Pro Gin Gin Arg Val Phe Leu Glu Cys Ala Trp Glu Ala Val Glu Ser 
15 10 15 

Ala Gly Tyr Asp Pro Glu Lys Tyr Pro Gly Leu lie Gly Val Phe Ala 
20 25 30 

Gly Ala Ser lie Asn Ser Tyr Phe Leu Tyr Asn Leu Ala His Asn Arg 
35 40 45 

Glu Phe Val Ala Arg Met Ala Gly Glu Tyr Gin Val Gly Glu Tyr Gin 
50 55 60 

Thr lie Leu Gly Asn Asp Lys Asp Tyr Leu Pro Thr Arg Val Ser Tyr 
65 70 75 80 

Lys Leu Asn Leu Arg Gly Pro Ser Leu Ala Val Gin Ser Ala Cys Ser 

85 90 95 

Thr Gly Leu Val Ala Val Cys Gin Ala lie Gin Asn Leu Gin Thr Tyr 
100 105 110 

Gin Cys Asp Met Ala Leu Ala Gly Gly lie Ser lie Ser Phe Pro Gin 
115 120 125 

Lys Arg Asp Tyr Arg Phe Thr Asp Glu Gly Met Val Ser Arg Asp Gly 
130 135 140 

His Cys Arg Pro Phe Asp Ala Ser Ala Gin Gly Thr Val Phe Gly Asn 
145 150 155 ~ 160 

Gly Ala Gly Val Val Leu Met Lys Arg Leu Ala Asp Ala Val Thr Asp 

165 170 175 

Arg Asp Thr lie Leu Ala Val lie Arg Gly Ala Ala Val Asn Asn Asp 
180 185 190 

Gly Gly Val Lys Met Gly Tyr Thr Ala Pro Ser Ala Glu Gly Gin Ala 
195 200 205 

Glu Ala lie Thr Leu Ala Leu Ala Leu Ala Gly Val Ser Pro Glu Thr 
210 215 220 

lie Thr Cys Met Asp Thr His Gly Thr Gly 
225 230 
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<210> 53 
<211> 226 
<212> PRT 

<213> Organime Inconnu 
<220> 

<223> Origine de la sequence :organisme du sol 
<400> 53 

Pro Gin Gin Arg Val Phe Leu Glu Cys Ala Trp Ala Ala Leu Glu Arg 
1 5 10 15 

Arg Arg lie Ser Gly Arg His Leu Pro Arg Cys Pro Ser Ala Val Tyr 
20 25 30 

Ala Ser Ser Gly Phe Asn Thr Tyr Leu Leu Asn Leu His Ala Asn Ala 
35 40 45 

Ala Val Arg Gin Ser He Ser Pro Phe Glu Leu Phe Val Ala Asn Asp 
50 55 60 

Lys Asp Phe Leu Ala Thr Arg Thr Ala Tyr Lys Leu Asn Leu Arg Gly 
65 7 0 75 80 

Pro Ala Met Thr Val Gin Thr Ala Cys Ser Ser Ser Leu Val Ala Val 

85 90 95 

His Val Ala Ala Gin Ser Leu Leu Ala Gly Glu Cys Asp He Ala Leu 
100 105 ' no 

Ala Gly Gly He Thr Val Ser Arg Ser His Gly Tyr Val Ala Arg Glu 
115 120 125 

Gly Gly He Leu Ser Pro Asp Gly His Cys Arg Ala Phe Asp Ala Asp 
130 135 140 

Ala Gly Gly Thr Val Pro Gly Ser Gly Val Gly Val Val Val Leu Lys 
145 150 155 160 

Arg Leu Glu Asp Ala Leu Ala Asp Gly Asp Thr He Asp Ala Val He 
165 170 ~ 175 

He Gly Ser Ala He Asn Asn Asp Gly Ala Leu Lys Ala Ser Phe Thr 
180 185 190 

Ala Pro Gin Val Asp Ser Gin Ala Leu Val He Ser Glu Ala His Ala 
I 95 200 205 

Ala Ala Gly He Ser Ala Asp Ser He Gly Tyr Met Asp Thr His Gly 
210 215 220 
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Thr Gly 
225 



<210> 54 
<211> 223 
<212> PRT 

<213> Organime Inconnu 
<220> 

<223> Origine de la sequence rorganisme du sol 
<400> 54 

Pro Gin Gin Arg Leu Phe Leu Glu Leu Thr Trp Glu Ala Leu Glu Asp 
15 10 15 

Ala Gly He Pro Pro Ser Thr He Ala Gly Thr Asn Val Gly Val Phe 
20 25 30 

Met Gly Ala Ser Gin Ala Asp Tyr Gly His Lys Phe Phe Ser Asp His 
3 5 4 0 45 

Ala Val Ala Asp Ser His Phe Ala Thr Gly Thr Ser Leu Ala Val Val 
50 55 60 

Ala Asn Arg He Ser Tyr He Tyr Asp Leu Arg Gly Pro Ser Leu Thr 
65 70 75 ~ 80 

Val Asp Thr Ala Cys Ser Ser Ser Leu Val Ala Leu His Gin Ala Val 

85 90 95 

Glu Ala Leu Arg Ser Gly Arg He Glu Thr Ala He Val Gly Gly He 
100 105 110 

Asn Val He Ala Ser Pro Ala Ser Phe He Ala Phe Ser Gin Ala Ser 
H5 120 125 

Met Leu Ser Pro Thr Gly Leu Cys Gin Ala Phe Ser Ala Lys Ala Asp 
130 135 140 

Gly Phe Val Arg Gly Glu Gly Gly Thr Val Phe Val Leu Arg Lys Ala 
145 150 155 160 

Ala His Ala His Gly Ser Arg Asn Pro Val Arg Gly Leu He Leu Ala 

165 170 175 

Thr Asp Val Asn Ser Asp Gly Arg Thr Asn Gly He Ser Leu Pro Ser 
180 185 190 
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Ala Glu Ala Gin Glu Val Leu Leu Gin Arg Val Tyr Ser Arg Ala Ser 
195 200 205 

lie Asp Pro Asn Arg Leu Ala Phe Val Asp Thr His Gly Thr Gly 
210 215 220 



<210> 55 
<211> 254 
<212> PRT 

<213> Organime Inconnu 
<220> 

<223> Origine de la sequence lorganisme du sol 
<400> 55 

Pro Gin Gin Arg Val Phe Leu Asp Gly lie Asp Arg Phe Asp Pro Arg 
15 10 15 

His Phe Ala lie Thr Pro Arg Glu Ala lie Ser Met Asp Pro Gin Gin 
20 25 30 

Arg Leu Leu Leu Glu Val Thr Trp Glu Ala Leu Glu Arg Ala Gly Val 
35 40 45 

Ala Pro Asp Arg Leu Thr Gly Ser Asp Thr Gly Val Phe lie Gly lie 
50 55 60 

Ser Thr Asn Asp Tyr Gly Gin He Leu Leu Arg Ala Ser Asp Gin He 
65 70 75 ~ 80 

Asp Pro Gly Met Tyr Phe Gly Thr Gly Asn Leu Leu Asn Ala Ala Ala 

85 90 95 

Gly Arg Leu Ser Tyr Val Leu Gly Leu Gin Gly Pro Ser Met Ala Val 
100 105 110 

Asp Thr Ala Cys Pro Ser Ser Leu Val Ala He His Leu Ala Cys Gin 
115 120 125 

Ser Leu Arg Asn Arg Glu Cys Arg Met Ala Leu Ala Gly Gly Ala Asn 
13 0 13 5 14 0 

Leu Val Leu Val Pro Glu Val Thr Val Asn Cys Cys Arg Ala Lys Met 
145 150 155 * 160 

Leu Ala Pro Asp Gly Arg Cys Lys Thr Phe Asp Ala Ala Ala Asp Gly 
165 170 175 
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Tyr Val Arg Gly 
180 

Asp Ala Leu Ala 
195 

Ala Val Asn Gin 
210 

Leu Ala Gin Gin 
225 

Ala Ala Ser Asp 



Glu Gly Ala Ala 



Asp Gly Asp Pro 
200 

Asp Gly Arg Ser 
215 

Ala Val He Arg 
230 

He Gly Tyr Val 
245 



Val He Val Leu 
185 

He Val Ala Leu 



Gly Gly Phe Thr 
220 

Thr Ala Leu Ala 
235 

Asp Thr His Gly 
250 



Lys Arg Leu Ser 
190 

He Arg Gly Ser 
205 

Ala Pro Asn Glu 



Ala Ala Gly Val 
240 

Thr Gly 



<210> 56 
<211> 254 
<212> PRT 

<213> Organime Inconnu 
<220> 

<223> Origine de la sequence :organisme du sol 
<400> 56 

Pro Gin Gin Arg Val Phe Leu Asp Gly lie Asp Arg Phe Asp Pro Gin 
15 10 15 

Phe Phe Gly He Ala Pro Arg Glu Ala Ala Gly lie Asp Pro Gin Gin 
20 25 30 

Arg Leu Leu Leu Glu Thr Thr Trp Glu Ala Leu Glu Asp Ala Gly Thr 
35 40 45 

Ser Pro Glu Lys Leu Gin Gly Thr Pro Ala Gly Val Phe Val Gly He 
50 55 60 

Asn Ser lie Asp Tyr Ala Thr Leu Gin Leu Gin Asn Cys Asp Leu Ala 
65 70 75 80 

Ser lie Asp Ala Tyr Ser Leu Ser Gly Ser Ala His Ser lie Ala Ala 

85 90 95 

Gly Arg Leu Ala Tyr Val Leu Gly Leu Gin Gly Pro Ala Met Ala Val 
100 105 110 

Asp Thr Ala Cys Ser Ser Ser Leu Val Ala He His Leu Ala Cys Gin 
115 120 125 
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Ser Leu Arg Asn 
130 

Val Thr Leu Thr 
145 

Leu Ala Ala Asp 



Phe Val Glu Gly 
180 

His Ala Leu Ala 
195 

Ala Val Asn Gin 
210 

Pro Ala Gin Glu 
225 

Gin Pro Ala Glu 



Asp Asp Cys Arg 
135 

Pro lie Asn Met 
150 

Gly Lys Cys Lys 
165 

Glu Gly Cys Ala 



Asp Lys Asp Arg 
200 

Asp Gly Ala Ser 
215 

Ala Val lie Arg 
230 

Val Gly Tyr Val 
245 



Val Ala Val Ala 
140 

Val Val Phe Ser 
155 

Thr Phe Asp Gly 
170 

Val lie Val Leu 
185 

lie Leu Ala Leu 



Ser Gly Leu Thr 
220 

Ala Ala Leu Lys 
235 

Asp Thr His Gly 
250 



Gly Gly Val His 



Lys Leu Arg Met 
160 

Arg Gly Asp Gly 
175 

Lys Arg Leu Ser 
190 

Val Arg Gly Ser 
205 

Ala Pro Asn Gly 



Arg Ala Gly Val 
240 

Thr Gly 



<210> 57 

<211> 222 

<212> PRT 

<213> Organime Inconnu 
<220> 

<223> Origine de la sequence :organisme du sol 

<400> 57 

Pro Gin Glu Arg Val Leu Leu Glu Ser Ser Trp His Ala Leu Glu Asp 
1 5 10 15 

Ala Gly Tyr Ala Gly Glu Ser He Ala Gly Ala Arg Cys Gly Val Tyr 
20 25 ^ 30 

Met Gly Phe Asn Gly Gly Asp Tyr Gly Asp Leu Leu Tyr Gly Gin Pro 
35 40 45 

Ser Leu Pro Pro His Ala Met Trp Gly Asn Ala Ala Ser Val Leu Ser 
50 55 60 

Ala Arg lie Ala Tyr Tyr Leu Asp Leu Gin Gly Pro Ala He Thr Leu 
65 70 75 80 



SDOCID: <WO 0140497A2_I_> 



WO 01/40497 



30 



PCT/FR00/03311 



Asp Thr Ala Cys Ser 

85 

Gly Leu Trp Thr Gly 
100 

lie Gin Cys Thr Pro 
115 

Leu Ser Pro Thr Gly 
13 0 

Phe Val Pro Ser Glu 
145 

Asp Ala Leu Asp Ala 

165 

Ala lie Asn Gin Asp 
180 

Ala Ala Gin Glu Arg 
195 

Asp Ala Ser Arg Leu 
210 



Ser Ser Leu Val Ala Val 

90 

Glu Thr Asp Leu Ala Leu 
105 

Gly Phe Leu lie Ser Ser 
120 

Gin Cys Arg Ala Phe Gly 
13 5 

Gly Val Gly Val Val Val 
150 155 

Gly Asp His Xaa Tyr Gly 

170 

Gly Ala Ser Asn Gly lie 
185 

Leu Gin Arg His Val Tyr 
200 

Gin Met He Glu Ala His 
215 



His Leu Ala Cys Gin 
95 

Ala Gly Gly Val Trp 
110 

Ser Arg Ala Gly Met 
125 

Ala Gly Ala Asp Gly 
14 0 

Leu Lys Arg Leu Gin 

160 

Val He Arg Gly Ser 
175 

Thr Ala Pro Ser Ala 
190 

Asp Ser Phe Gly He 
205 

Gly Thr Gly 
220 



<210> 58 
<211> 223 
<212> PRT 

<213> Organime Inconnu 
<220> 

<223> Origine de la sequence :organisme du sol 
<400> 58 

Pro Gin Glu Arg Val Leu Leu Glu Val Thr Trp Glu Ala Leu Glu Asp 
15 10 15 

Ala Gly Gin Asp Val Asp Arg Leu Ala Gly Arg Pro Val Gly Val Phe 
20 25 30 

Val Gly He Ser Ser Asn Asp Tyr Gly Gin Leu Gin Asn Gly Asp Pro 
35 40 45 

Ala Asp Val Asp Ala Tyr Val Gly Thr Gly Asn Ala Leu Ser He Ala 
50 55 60 
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Ala Asn Arg Leu Ser Tyr Thr Phe Asp Phe Arg Gly Pro Ser Leu Ala 
65 70 75 80 

Val Asp Thr Ala Cys Ser Ser Ser Leu Val Ala lie His Leu Ala Cys 

85 90 95 

Gin Ser Val Arg Arg Gly Glu Ala Glu Leu Ala Val Ala Ala Gly Val 
100 105 110 

Asn Leu lie Leu Thr Pro Gly Leu Thr Val Asn Phe Thr Arg Ala Gly 
115 12 0 12 5 

Met Met Ala Pro Asp Gly Arg Cys Lys Thr Phe Asp Ala Ala Ala Asn 
130 135 140 

Gly Tyr Val Arg Gly Glu Gly Ala Gly Val Val Val Leu Lys Pro Leu 
145 150 155 160 

Ala Gin Ala lie Ala Asp Gly Asp Pro lie Tyr Ala lie Val Arg Gly 
165 170 175 

Ser Ala Val Asn Gin Asp Gly Arg Ser Asn Gly Leu Thr Ala Pro Asn 
180 185 190 

Arg Gin Ala Gin Glu Val Val Leu Arg Ala Ala Tyr Arg Asp Ala Gly 
195 200 205 

He Ser Pro Ala Asp Val Asp Ala Val Glu Ala His Gly Thr Gly 
210 215 220 



<210> 59 
<211> 235 
<212> PRT 

<213> Organime Inconnu 
<220> 

<223> Origine de la sequence :organisme du sol 
<400> 59 

Pro Gin Gin Arg Val Phe Leu Glu Asp Ala Thr Glu Val Asp Val Asp 
1 5 10 15 

Ala Leu Ser Asp Gly Glu Asp Val Val He Ala Gly He Met Gin His 
20 25 30 

He Glu Glu Ala Gly He His Ser Gly Asp Ser Ser Cys Val Leu Pro 
35 40 45 
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Pro Val Asp lie Pro Pro Lys Ala Leu Gin Thr lie Arg Asp His Thr 
50 55 60 

Phe Lys Leu Ala Arg Ala Leu Lys Val lie Gly Leu Met Asn Val Gin 
65 70 75 80 

Tyr Ala lie Gin Arg Asp Lys Val Tyr Val lie Glu Val Asn Pro Arg 

85 90 95 

Ala Ser Arg Thr Val Pro Tyr Val Ser Lys Ala Thr Gly Val Pro Leu 
100 105 110 

Ala Lys Val Ala Ser Arg Leu Met Thr Gly Arg Lys Leu His Glu Leu 
115 120 " 125 

Leu Pro Glu Gly Val Glu Arg Gly Trp lie Thr Thr Ala Gly Glu Asn 
130 135 140 

Phe Tyr Val Lys Ser Pro Val Phe Pro Trp Gly Lys Phe Pro Gly Val 
145 150 155 " 160 

Asp Thr Val Leu Gly Pro Glu Met Lys Ser Thr Gly Glu Val Met Gly 

165 170 175 

Val Ala Asp Asn Phe Gly Glu Ala Phe Ala Lys Ala Gin lie Ala Ala 
180 185 190 

Gly Thr Tyr Leu Pro Thr Glu Gly Thr Val Phe lie Ser Val Asn Asp 
195 200 205 

Arg Asp Lys Gly Asn Val lie Gin Leu Ala Gin Arg Phe Ser Glu Leu 
210 215 220 

Gly Phe Gly lie Val Asp Thr His Gly Thr Gly 
225 230 235 



<210> 60 
<211> 1269 
<212> ADN 

<213> Organime Inconnu 
<220> 

<223> Origine de la sequence :Organisme du sol 
<400> 60 

taacaggaag aagcttgctt ctttgctgac gagtggcgga cgggtgagta acacgtggga 60 
acctgcctta tggttcggga taacgtctgg aaacggacgc taacaccgga tgtgcccttc 12 0 
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gggggaaagt ttacgccatg agaggggccc 
gcccaccaag ccgacgatcg gtagctggtc 
gacacggccc agactcctac gggaggcagc 
ctgatccagc aatgccgcgt gagtgatgaa 
cgacgatgat gacggtagcg tgagaagaag 
taatacgaag ggggcgagcg ttgttcggaa 
cgatcagtca gatgtgaaag ccccgggctc 
cttgagttcc ggagaggatg gtggaattcc 
gaagaacacc ggtggcgaag gcggccatct 
9t9999agca aacaggatta gataccctgg 
cgctggggtg catgcacttc ggtgtcgccg 
acggccgcaa ggttaaaact caaaggaatt 
tggtttaatt cgaagcaacg cgcagaacct 
cgagagattg gaccttcagt tcggctggat 
ctcgtgtcgt gagatgttgg gttaagtccc 
catcattcag ttgggcactc tggtggaact 
gacgtcaagt cctcatggcc cttatgggtt 
agtgggacgc gaagtcgcaa gatggagcaa 
actctgcaac tcgggtgcat gaagttggaa 
gtgaatacg 



gcgtccgatt aggtagttgg tggggtaatg 180 
tgagaggatg atcagccaca ctgggactga 240 
agtggggaat attggacaat gggggcaacc 3 00 
ggccttaggg ttgtaaagct ctttcgcacg 360 
ccccggctaa cttcgtgcca gcagccgcgg 420 
ttactgggcg taaagggcgc gtaggcggcc 480 
aacctgggaa ctgcatttga tactgtcggg 540 
cagtgtagag gtgaaattcg tagatattgg 600 
ggacggacac tgacgctgag gcgcgaaagc 660 
tagtccacgc cgtaaacgat gaatgctaga 720 
ctaacgcatt aagcattccg cctggggagt 780 
gacgggggcc cgcacaagcg gtggagcatg 84 0 
taccaaccct tgacatgtcc attgccggtc 900 
ggaacacagg tgctgcatgg ctgtcgtcag 960 
gcaacgagcg caacccctac cgccagttgc 1020 
gccggtgaca agccggagga aggcggggat 108 0 
gggctacaca cgtgctacaa tagcggtgac 1140 
atccccaaaa gccgtctcag ttcggattgc 1200 
tcgctagtaa tcgcggatca gcacgccgcg 1260 

1269 



<210> 61 
<211> 1500 
<212> ADN 

<213> Organime Inconnu 
<220> 

<223> Origine de la sequence :Organisme du sol 
<400> 61 

ttttaaaacg acggccagtg aattgtaata cgactcacta tagggcgaat tgggccctct 60 
agatgcatgc tcgagcggcc gccagtgtga tggatatctg cagaattcgc ccttcaggcc 120 
taacacatgc aagtcgaacg agggcttcgg ccctagtggc gcacgggtga gtaacacgtg 18 0 
ggaacctgcc ttatggttcg ggataacgtc tggaaacgga cgctaacacc ggatgtgccc 24 0 
ttcgggggaa agtttacgcc atgagagggg cccgcgtccg attaggtagt tggtggggta 300 
atggcccacc aagccgacga tcggtagctg gtctgagagg atgatcagcc acactgggac 360 
tgagacacgg cccagactcc tacgggaggc agcagtgggg aatattggac . aatgggggca 420 
accctgatcc agcaatgccg cgtgagtgat gaaggcctta gggttgtaaa gctctttcgc 480 
acgcgacgat gatgacggta gcgtgagaag aagccccggc taacttcgtg ccagcagccg 54 0 
cggtaatacg aagggggcga gcgttgttcg gaattactgg gcgtaaaggg cgcgtaggcg 600 
gcccgatcag tcagatgtga aagccccggg ctcaacctgg gaactgcatt tgatactgtc 660 
gggcttgagt tccggagagg atggtggaat tcccagtgta gaggtgaaat tcgtagatat 72 0 
tgggaagaac accggtggcg aaggcggcca tctggacgga cactgacgct gaggcgcgaa 780 
agcgtgggga gcaaacagga ttagataccc tggtagtcca cgccgtaaac gatgaatgct 840 
agacgctggg gtgcatgcac ttcggtgtcg ccgctaacgc attaagcatt ccgcctgggg 900 
agtacggccg caaggttaaa actcaaagga attgacgggg gcccgcacaa gcggtggagc 960 
atgtggttta attcgaagca acgcgcagaa ccttaccaac ccttgacatg tccattgccg 1020 
gtccgagaga ttggaccttc agttcggctg gatggaacac aggtgctgca tggctgtcgt 1080 
cagctcgtgt cgtgagatgt tgggttaagt cccgcaacga gcgcaacccc taccgccagt 1140 
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tgccatcatt cagttgggca ctctggtgga actgccggtg acaagccgga ggaaggcggg 1200 

gatgacgtca agtcctcatg gcccttatgg gttgggctac acacgtgcta caatggcggt 1260 

gacagtggga cgcgaagtcg caagatggag caaatcccca aaagccgtct cagttcggat 1320 

tgcactctgc aactcgggtg catgaagttg gaatcgctag taatcgcgga tcagcacgcc 1380 

gcggtgaata cgttcccggg ccttgtacac accgcccaag ggcgaattcc agcacactgg 1440 

cggccgttac tagtggatcc gagctcggta ccaagcttgg cgtaatcatg gtcatagctg 1500 



<210> 62 
<211> 1366 
<212> ADN 

<213> Organitne Inconnu 



<220> 

<223> Origine de la sequence :Organisme du sol 



<400> 62 

acgacggcca gtgaattgta atacgactca ctatagggcg aattgggccc tctagatgca 60 
tgctcgagcg gccgccagtg tgatggatat ctgcagaatt cgcccttcag gcctaacaca 120 
tgcaagtcga acgaaggctt cggccttagt ggcgcacggg tgagtaacac gtgggaacct 180 
gcctttcggt tcggaataac gtctggaaac ggacgctaac accggatacg cccttcgggg 240 
gaaagttcac gccgagagag gggcccgcgt cggattaggt agttggtgag gtaatggctc 3 00 
accaagcctt cgatccgtag ctggtctgag aggatgatca gccacactgg gactgagaca 360 
cggcccagac tcctacggga ggcagcagtg gggaatattg gacaatgggc gcaagcctga 420 
tccagcaatg ccgcgtgagt gatgaaggcc ttagggttgt aaagctcttt cgcacgcgac 480 
gatgatgacg gtagcgtgag aagaagcccc ggctaacttc gtgccagcag ccgcggtaat 54 0 
acgaaggggg ctagcgttgt tcggaattac tgggcgtaaa gggcgcgtag gcggcctgct 600 
tagtcagaag tgaaagcccc gggctcaacc tgggaatagc ttttgatact ggcaggcttg 660 
agttccggag aggatggtgg aattcccagt gtagaggtga aattcgtaga tattgggaag 720 
aacaccggtg gcgaaggcgg ccatctggac ggacactgac gctgaggcgc gaaagcgtgg 780 
ggagcaaaca ggattagata ccctggtagt ccacgccgta aacgatgaat gctagacgtc 840 
ggggtgcatg cacttcggtg tcgccgctaa cgcattaagc attccgcctg gggagtacgg 900 
ccgcaaggtt aaaactcaaa ggaattgacg ggggcccgca caagcggtgg agcatgtggt 960 
ttaattcgaa gcaacgcgca gaaccttacc aacccttgac atgtccatta tgggcttcag 1020 
agatgaggtc cttcagttcg gctgggtgga acacaggtgc tgcatggctg tcgtcagctc 1080 
gtgtcgtgag atgttgggtt aagtcccgca acgagcgcaa cccctaccgt cagttgccat 1140 
cattcagttg ggcactctgg tggaaccgcc ggtgacaagc cggaggaagg cggggatgac 1200 
gtcaagtcct catggccctt atgggttggg ctacacacgt gctacaatgg cggtgacagt 1260 
gggaagcgaa gtcgcgagat ggagcaaatc cccaaaagcc gtctcagttc ggatcgcact 1320 
ctgcaactcg agtgcgtgaa gttggaatcg ctagtaatcg cggatc 13 66 



<210> 63 
<211> 1360 
<212> ADN 

<213> Organime Inconnu 
<220> 

<223> Origine de la sequence :Organisme du sol 
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<400> 63 

acagctatga ccatgattac gccaagcttg gtaccgagct cggatccact agtaacggcc 60 
gccagtgtgc tggaattcgc ccttcaggcc taacacatgc aagtcgaacg ccccgcaagg 120 
ggagtggcag acgggtgagt aacgcgtggg aacataccct ttcctgcgga atagctccgg 180 
gaaactggaa ttaataccgc atacgcccta cgggggaaag atttatcggg gaaggattgg 24 0 
cccgcgttgg attagctagt tggtggggta aaggcctacc aaggcgacga tccatagctg 300 
gtctgagagg atgatcagcc acattgggac tgagacacgg cccaaactcc tacgggaggc 360 
agcagtgggg aatattggac aatgggcgca agcctgatcc agccatgccg cgtgagtgat 420 
gaaggcctta gggttgtaaa gctctttcac cggagaagat aatgacggta tccggagaag 480 
aagccccggc taacttcgtg ccagcagccg cggtaatacg aagggggcta gtgttgttcg 540 
gaattactgg gcgtaaagcg cacgtaggcg gatatttaag tcaggggtga aatcccagag 600 
ctcaactctg gaactgcctt tgatactggg tatcttgagt atggaagagg taagtggaat 660 
tccgagtgta gaggtgaaat tcgtagatat tcggaggaac accagtggcg aaggcggctt 720 
actggtccat tactgacgct gaggtgcgaa agcgtgggga gcaaacagga ttagataccc 780 
tggtagtcca cgccgtaaac gatgaatgtt agccgtcggg cagtatactg ttcggtggcg 840 
cagctaacgc attaaacatt ccgcctgggg agtacggtcg caagattaaa actcaaagga 900 
attgacgggg gcccgcacaa gcggtggagc atgtggttta attcgaagca acgcgcagaa 960 
ccttaccagc tcttgacatt cggggtttgg gcagtggaga cattgtcctt cagttaggct 1020 
ggccccagaa caggtgctgc atggctgtcg tcagctcgcg tcgtgagatg ttgggttaag 1080 
tcccgcaacg agcgcaaccc tcgcccttag ttgccagcat ttagttgggc actctaaggg 1140 
gactgccggt gataagccga gaggaaggtg gggacgacgt caagtcctca tggcccttac 1200 
gggctgggct acacacgtgc tacaatggtg gtgacagtgg gcagcgagac agcgatgtcg 1260 
agctaatctc caaaagccat ctcagttcgg attgcactct gcaactcgag tgcatgaagt 1320 
tggaatcgct agtaatcgca gatcagcatg tgcggtgaat 1360 



<210> 64 
<211> 1288 
<212> ADN 

<213> Organime Inconnu 
<220> 

<223> Origine de la sequence :Organisme du sol 
<400> 64 

tccaggaaac agctatgacc atgattacgc caagcttggt accgagctcg gatccactag 60 
taacggccgc cagtgtgctg gaattcgccc ttcaggccta acacatgcaa gtcgagcgcc 120 
ccgcaagggg agcggcagac gggtgagtaa cgcgtgggaa tctacccatc cctacggaac 180 
aactccggga aactggagct aataccgtat acgccctttg ggggaaagat ttatcgggga 24 0 
tggatgagcc cgcgttggat tagctagttg gtggggtaaa ggcctaccaa ggcgacgatc 300 
catagctggt ctgagaggat gatcagccac attgggactg agacacggcc caaactccta 360 
C999 a 99 ca 9 cagtggggaa tattggacaa tgggcgcaag cctgatccag ccatgcccgc 42 0 
gtgagtgatg aaggtcttag gattgtaaag ctctttcacc ggagaagata atgacggtat 480 
ccggagaaga agccccggct aactttcgtg ccagcagccg cggtaatacg aagggggcta 540 
gcgttgttcg gaattactgg gcgtaaagcg cacgtaggcg gatatttaag tcaggggtga 600 
aatcccagag ctcaactctg gaactgcctt tgatactggg tatcttgagt atggaagagg 660 
taagtggaat tgcgagtgta gaggtgaaat tcgtagatat tcgcaggaac accagtggcg 72 0 
aaggcggctt actggtccat tactgacgct gaggtgcgaa agcgtgggga gcaaacagga 780 
ttagataccc tggtagtcca cgccgtaaac gatgaatgtt agccgtcggc aagtttactt 840 
gtcggtggcg cagctaacgc attaaacatt ccgcctgggg agtacggtcg caagattaaa 900 



SDOCID: <WO 0140497A2_I_> 



WO 01/40497 



36 



PCT/FROO/0331 ! 



actcaaagga 
acgcgcagaa 
ttcggggacc 
gttaagtccc 
taaggggact 
cttacgggct 
atcccgagct 



attgacgggg 
ccttaccagc 
gggacacagg 
gcaacgagcg 
gccggtgata 
gggctacaca 
aatctccaaa 



gcccgcacaa 
ccttgacatg 
tgctgcatgg 
caaccctcgc 
agccgagagg 
cgtgctacaa 
agccatct 



gcggtggagc 
cccggacagc 
ctgtcgtcag 
ccttagttgc 
aagtggggat 
tgggtggtga 



atgtggttta 
tacagagatg 
ctcgtgtcgt 
cagcattcag 
gacgtcaagt 
cagtgggcag 



attcgaagca 960 
tagtgttccc 1020 
gagatgttgg 1080 
ttgggcactc 1140 
cctnatggcc 1200 
cgaaggaacg 12 6 0 
1288 



<210> 65 
<211> 1386 
<212> ADN 

<213> Organime Inconnu 
<220> 

<223> Origine de la sequence :Organisme du sol 
<400> 65 

cgacggccag tgaattgtaa tacgactcac tatagggcga attgggccct ctagatgcat 60 

gctcgagcgg ccgccagtgt gatggatatc tgcagaattc gcccttcagg cctaacacat 120 

gcaagtcgag cgggcgtagc aatacgtcag cggcagacgg gtgagtaacg cgtgggaaca 18 0 

taccttttgg ttcggaacaa cacagggaaa cttgtgctaa taccggataa gcccttacgg 24 0 

ggaaagattt atcgccgaaa gattggcccg cgtctgatta gctagttggt agggtaatgg 300 

cctaccaagg cgacgatcag tagctggtct gagaggatga tcagccacat tgggactgag 3 60 

acacggccca aactcctacg ggaggcagca gtggggaata ttggacaatg ggcgcaagcc 420 

tgatccagcc atgccgcgtg agtgatgaag gccctagggt tgtaaagctc ttttgtgcgg 480 

gaagataatg acggtaccgc aagaataagc cccggctaac ttcgtgccag cagccgcggt 540 

aatacgaagg gggctagcgt tgctcggaat cactgggcgt aaagggtgcg taggcgggtc 600 

tttaagtcag gggtgaaatc ctggagctca actccagaac tgcctttgat actgaagatc 660 

ttgagttcgg gagaggtgag tggaactgcg agtgtagagg tgaaattcgt agatattcgc 720 

aagaacacca gtgggcgaag gcggctcact ggcccgatac tgacgctgag gcacgaaagc 780 

gtggggagca aacaggatta gataccctgg tagtccacgc cgtaaacgat gaatgccagc 840 

cgttagtggg tttactcact agtggcgcag ctaacgcttt aagcattccg cctggggagt 900 

acggtcgcaa gattaaaact caaaggaatt gacgggggcc cgcacaagcg gtggagcatg 960 

tggtttaatt cgacgcaacg cgcagaacct taccagccct tgacatgtcc aggaccggtc 102 0 

gcagagatgt gaccttctct tcggagcctg gagcacaggt gctgcatggc tgtcgtcagc 1080 

tcgtgtcgtg agatgttggg ttaagtcccg caacgagcgc aacccccgtc cttagttgct 1140 

accatttagt tgagcactct aaggagactg ccggtgataa gccgcgagga aggtggggat 1200 

gacgtcaagt cctcatggcc cttacgggct gggctacaca cgtgctacaa tggcggtgac 1260 

aatgggacgc taaggggcaa cccttcgcaa atctcaaaaa gcccgtctca gttcggattg 1320 

ggctctgcaa ctcgagccca tgaagttgga atcgctagta atcgtggatc agcacgccac 1380 
ggtgaa 13 86 



<210> 66 

<211> 1223 

<212> ADN 

<213> Organime Inconnu 
<220> 
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<223> Origine de la sequence :Organisme du sol 



<400> 66 

agcggcagag ggtgagtaac gcgtgggaat 
actggagcta ataccgtata cgtccttcgg 
gcgttggatt agctagttgg tggggtaatg 
tgagaggatg atcagccaca ctgggactga 
a 9tggggaat attggacaat gggcgaaagc 
ggccctaggg ttgtaaagct ctttcaacgg 
ccccggctaa cttcgtgcca gcagccgcgg 
ttactgggcg taaagcgcac gtaggcggac 
aaccccggaa ctgcctttga tactggtagt 
gagtgtagag gtgaaattcg tagatattcg 
ggtccggtac tgacgctgag gtgcgaaagc 
tagtccacgc cgtaaacgat ggaagctagc 
ctaacgcatt aagcttcccg cctggggagt 
gacgggggcc cgcacaagcg gtggagcatg 
taccagccct tgacatcccg gtcgcggtta 
ccggtgacag gtgctgcatg gctgtcgtca 
cgcaacgagc gcaaccctcg cccttagttg 
tgccggtgat aagccgagag gaaggtgggg 
ctgggctaca cacgtgctac aatggtggtg 
taatctccaa aagccatctc agttcggatt 
aatcgctagt aatcgcggat cag 



ctacccatct ctacggaaca actccgggaa 60 
gagaaagatt tatcggagat ggatgagccc 120 
gcctaccaag gcgacgatcc atagctggtc 180 
gacacggccc agactcctac gggaggcagc 24 0 
ccgatccagc catgccgcgt gagtgatgaa 3 00 
tgaggataat gacggtaacc gtagaagaag 360 
taatacgaag ggggctagcg ttgttcggaa 420 
tattaagtca ggggtgaaat cccggggctc 480 
ctcgagtccg gaagaggtga gtggaattcc 540 
gaggaacacc agtggcgaag gcggctcact 600 
gtggggagca aacaggatta gataccctgg 660 
cgttggcaag tttacttgtc ggtggcgcag 720 
acggtcgcaa gattaaaact caaaggaatt 780 
tggtttaatt cgaagcaacg cgcagaacct 840 
ccagagatgg tatccttcag ttcggctgga 900 
gctcgtgtcg tgagatgttg ggttaagtcc 960 
ccagcattca gttgggcact ctaaggggac 1020 
atgacgtcaa gtcctcatgg cccttacggg 1080 
acagtgggca gcgagaccgc gaggtcgagc 114 0 
gcactctgca actcgagtgc atgaagttgg 1200 

1223 



<210> 67 
<211> 1237 
<212> ADN 

<213> Organime Inconnu 
<220> 

<223> Origine de la sequence :Organisme du sol 
<400> 67 

cccgcagggg agtggcagag ggtgagtaac gcgtgggaat ctaccctttt ctacggaaca 60 
actgagggaa acttcagcta ataccgtata cggccgagag gcgaaagatt tatcggagaa 120 
ggatgagccc gcgttggatt agctagttgg tggggtaaag gcctaccaag gcgacgatcc 180 
atagctggtc tgagaggatg atcagccaca ctgggactga gacacggccc agactcctac 240 
gggaggcagc agtggggaat attggacaat gggcgcaagc ctgatccagc catgccgcgt 3 00 
gagtgatgaa ggccctaggg ttgtaaagct ctttcaccgg tgaagataat gacggtaacc 360 
ggagaagaag ccccggctaa cttcgtgcca gcagccgcgg taatacgaag ggggctagcg 420 
ttgttcggat ttactgggcg taaagcgcac gtaggcggac tattaagtca ggggtgaaat 480 
cccggggctc aaccccggaa ctgcctttga tactggtagt cttgagttcg aaagaggtga 540 
gtggaattcc gagtgtagag gtgaaattcg tagatattcg gaggaacacc agtggcgaag 600 
gcggctcact ggctcgatac tgacgctgag gtgcgaaagc gtggggagca aacaggatta 660 
gataccctgg tagtccacgc cgtaaactat gagagctagg cgtcgggcag tatactgttc 720 
ggtggcgcag ctaacgcatt aagctcttcg cctggggagt acggtcgcaa gattaaaact 780 
caaaggaatt gacgggggcc cgcacaagcg gtggagcatg tggtttaatt cgaagcaacg 840 
cgcagaacct taccagccct tgacatcccg atcgcggtta ccagagatgg tatccttcag 900 
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ttaggctgga tcggtgacag gtgctgcatg 
ggttaagtcc cgcaacgagc gcaaccctcg 
ctaaggggac tgccggtgat aagccgagag 
cccttacggg ctgggctaca cacgtgctac 
9^ggtcgagc taatctccaa aagccatctc 
atgaagttgg aatcgctagt aatcgtggat 



gctgtcgtca gctcgtgtcg tgagatgttg 960 
cccttagttg ccatcattca gttgggcact 1020 
gaaggtgggg atgacgtcaa gtcctcatgg 1080 
aatggtggcg acagtgggca gcgagaccgc 114 0 
agttcggatt gcactctgca actcgagtgc 1200 
cagaatg i 2 37 



<210> 68 
<211> 1346 
<212> ADN 

< 2 1 3 > Organime Inconnu 
<220> 

<223> Origine de la sequence :Organisme du sol 



<400> 68 

acgacgggcc agtgaattgt aatacgactc 
atgctcgagc ggccgccagt gtgatggata 
atgcaagtcg aacggatccc ttcggattag 
tgccctttgg ttcggaacaa ctcagggaaa 
ggaaagattt atcgccattg gagcggcccg 
ctcaccaagg cgacgatcct tagctggtct 
acacggccca aactcctacg ggaggcagca 
tgacgcagcc atgccgcgtg aatgatgaag 
gacgataatg acggtacccg gagaagaagc 
aatacgaagg gggctagcgt tgctcggaat 
gtttagtcag aggtgaaagc ccagggctca 
ttgagtacgg aagaggtatg tggaactccg 
aagaacacca gtggcgaagg cgacatactg 
tggggagcaa acaggattag ataccctggt 
gtcggcatgc atgcatgtcg gtggcgcagc 
cggtcgcaag attaaaactc aaaggaattg 
ggtttaattc gaagcaacgc gcagaacctt 
gagatggagc tttcccttcg gggactggga 
tgtcgtgaga tgttgggtta agtcccgcaa 
aggtttggct gggcactcta ataggaccgc 
cgtcaagtcc tcatggccct tacaaggtgg 
agggctgcaa tcccgcgagg gggagccaat 
tctgcaactc gagtgcatga agttgg 



actatagggc gaattgggcc ctctagatgc 60 
tctgcagaat tcgcccttca ggcctaacac 120 
tggcggacgg gtgagtaaca cgcgggaacg 18 0 
cttgagctaa taccggataa gcctttcgag 240 
cgtaggatta gctagttggt gaggtaaaag 3 00 
gagaggatga tcagccacat tgggactgag 3 60 
gtggggaatc ttgcgcaatg ggcgaaagcc 42 0 
gtcttaggat tgtaaaattc tttcaccggg 480 
cccggctaac ttcgtgccag cagccgcggt 540 
tactgggcgt aaagggagcg taggcggata 600 
accttggaat tgcctttgat actggctatc 660 
agtgtagagg tgaaattcgt agatattcgg 72 0 
gtccgttact gacgctgagg ctcgaaagcg 780 
agtccacgct gtaaacgatg agtgctagtt 840 
taacgcatta agcactccgc ctggggagta 900 
acgggggccc gcacaagcgg tggagcatgt 960 
accacctttt gacatgcccg gaccgctcca 1020 
cacaggtgct gcatggctgt cgtcagctcg 1080 
cgagcgcaac cctcgctatt agttgccatc 1140 
cggtggtaag ccggaggaag gtggggatga 1200 
gctacacacg tgctacaatg gcgactacag 1260 
ccctaaaagt cgtctcagtt cggattgcac 1320 

1346 



<210> 69 
<211> 1500 
<212> ADN 

<213> Organime Inconnu 
<220> 

<223> Origine de la sequence :Organisme du sol 
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<400> 69 

acagctatga ccatgattac gccaagcttg gtaccgagct cggatccact agtaacggcc 60 

gccagtgtgc tggaattcgc ccttcaggcc taacacatgc aagtcgaacg ccgtagcaat 12 0 
acggagtggc agacgggtga gtaacacgtg ggaacgtgcc ctttggttcg gaacaacaca 180 

gggaaacttg tgctaatacc gaataagccc ttacggggaa agatttatcg ccaaaggatc 240 

ggcccgcgtc tgattagcta gttggtgggg taacggccca ccaaggctac gatcagtagc 300 

tggtctgaga ggatgatcag ccacactggg actgagacac ggcccagact cctacgggag 3 60 

gcagcagtta ggaatcttgg acaatgggcg caagcctgat ccagccatgc cgcgtgagtg 42 0 

atgaaggcct tagggttgta aagctctttc agcggggaag ataatgacgg tacccgcaga 480 

agaagccccg gctaacttcg tgccagcagc cgcggtaata cgaagggggc tagcgttgct 540 

cggaatcact gggcgtaaag cgcacgtagg cggatcttta agtcaggggt gaaatcctgg 600 

agctcaactc cagaactgcc tttgatactg gggatctcga gtccggaaga ggtgagtgga 660 

actccgagtg tagaggtgaa attcgtagat attcggaaga acaccagtgg cgaaggcggc 72 0 

tcactggtcc ggtactgacg ctgaggtgcg aaagcgtggg gagcaaacag gattagatac 780 

cctggtagtc cacgccgtaa acgatggatg ctagccgttg gcgggtttac tcgtcagtgg 840 

cgcagctaac gcattaagca tcccgcctgg ggagtacggt cgcaagatta aaactcaaag 900 

gaattgacgg gggcccgcac aagcggtgga gcatgtggtt caattcgaag caacgcgcag 960 

aaccttacca gcccttgaca tgtcccgtat ggacttcaga gatgaggtcc ttcagttcgg 1020 

ctggcgggaa cacaggtgct gcatggctgt cgtcagctcg tgtcgtgaga tgttgggtta 1080 

agtcccgcaa cgagcgcaac cctcgccctt agttgccatc atttagttgg gcactctaag 114 0 

gggactgccg gtgataagcc gcgaggaagg tggggatgac gtcaagtcct catggccctt 12 00 

acgggctggg ctacacacgt gctacaatgg cggtgacagt gggacgcaat ggagcaatcc 1260 

tgcgcaaatc tcaaaaagcc gtctcagttc ggattggggt ctgcaactcg accccatgaa 1320 

gtcggaatcg ctagtaatcg cagatcagca cgctgcggtg aatacgttcc cgggccttgt 1380 

acacaccgcc caagggcgaa ttctgcagat atccatcaca ctggcggccg ctcgagcatg 144 0 

catctagagg gcccaattcg ccctatagtg agtcgtatta caattcactg gccgtcgttt 1500 



<210> 70 
<211> 1113 
<212> ADN 

<213> Organime Inconnu 
<220> 

<223> Origine de la sequence :Organisme du sol 
<400> 70 

gagctaatac cgtataatga cttcggtcca aagatttatc gcctgaggat gagcccgcgt 60 
cggattagct agttggtagg gtaaaagcct accaaggcga cgatccgtag ctggtctgag 120 
aggatgatca gccacactgg gactgagaca cggcccagac tcctacggga ggcagcagtg 180 
gggaatattg gacaatgggc gcaagcctga tccagcaatg ccgcgtgagt gatgaaggcc 240 
ttagggttgt aaagctcttt tacccgggaa gataatgact gtaccgggag aataagcccc 300 
ggctaactcc gtgccagcag ccgcggtaat acggaggggg ctagcgttgt tcggaattac 360 
tgggcgtaaa gcgcacgtag gcggctttgt aagttagagg tgaaagcccg gggctcaact 420 
ccggaattgc ctttaagact gcatcgctcg aattgtggag aggtaagtgg aattccgagt 480 
gtagaggtga aattcgtaga tattcggaag aacaccagtg gcgaaggcga cttactggac 540 
acatattgac gctgaggtgc gaaagcgtgg ggagcaaaca ggattagata ccctggtagt 600 
ccacgccgta aacgatgatg actagctgtc ggggcgctta gcgtttcggt ggcgcagcta 660 
acgcgttaag tcatccgcct ggggagtacg gccgcaaggt taaactcaaa gaaattgacg 720 
ggggcctgca caagcggtgg agcatgtggt ttaattcgaa gcaacgcgca gaaccttacc 780 
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agcgtttgac atgccaggac ggtttccaga 
acaggtgctg catggctgtc gtcagctcgt 
gagcgcaacc ctcgtcttta gttgctacca 
tgataagccg gaggaaggtg gggatgacgt 
acacacgtgc tacaatggcg gtgacaacgg 
gaaaagccgt ctcagttcgg attgttctct 



gatggattcc ttcccttacg ggacctggac 840 
gtcgtgagat gttgggttaa gtcccgcaac 900 
tttagttgag cactctagag aaactgccgg 960 
caagtcctca tggcccttac gcgctgggct 1020 
gcagcaaact cgcgagagtg agcaaatccc 1080 
9 ca 1113 



<210> 71 
<211> 1225 
<212> ADN 

<213> Organime Inconnu 



<220> 

<223> Origine de la sequence :Organisme du sol 
<400> 71 

ggagcggcgg acgggtgagt aacgcgtggg aacgtgccct ttggtacgga acaactgagg 60 
gaaacttcag ctaataccgt atgtgccctt cgggggaaag atttatcgcc attggagcgg 120 
cccgcgttgg attaggtagt tggtggggta aaggcctacc aagcctacga tccatagctg 180 
gtctgagagg atgatcagcc acactgggac tgagacacgg cccagactcc tacgggaggc 240 
agcagtaggg aatcttgcgc aatgggcgaa agcctgacgc agccatgccg cgtgtatgat 300 
gaaggtctta ggattgtaaa atactttcac cggggaagat aatgacggta cccggagaag 3 60 
aagccccggc taacttcgtg ccagcagccg cggtaatacg aagggggcta gcgttgctcg 42 0 
gaattactgg gcgtaaaggg cgcgtaggcg gatatttaag tcgggggtga aagcccaggg 480 
ctcaaccctg gaattgcctt cgatactgga tatcttgagt tcgggagagg tgagtggaat 540 
gccgagtgta gaggtgaaat tcgtagatat tcggcggaac accagtggcg aaggcgactc 600 
actggcccga tactgacgct gaggcgcgaa agcgtgggga gcaaacagga ttagataccc 66 0 
tggtagtcca cgctgtaaac gatgagtgct agttgtcggc atgcatgcat gtcggtgacg 720 
cagctaacgc attaagcact ccgcctgggg agtacggtcg caagattaaa actcaaagga 780 
attgacgggg gcccgcacaa gcggtggagc atgtggttta attcgaagca acgcgcagaa 840 
ccttaccacc ttttgacatg ccctgatcgc tggagagatc cagttttccc ttcggggaca 900 
gggacacagg tgctgcatgg ctgtcgtcag ctcgtgtcgt gagatgttgg gttaagtccc 960 
gcaacgagcg caaccctcgc cattagttgc catcattaag ttgggcactc taatgggacc 102 0 
gccggtggta agccggagga aggtggggat gacgtcaagt cctcatggcc cttacggggt 1080 
gggctacaca cgtgctacaa tggcgactac agagggttgc aaacctgcga aggggagcta 1140 
atccctaaaa gtcgtctcag ttcggattgc actctgcaac tcgagtgcat gaagtcggaa 1200 
tcgctagtaa tcgcggatca gcatg ' 1225 



<210> 72 
<211> 1286 
<212> ADN 

<213> Organime Inconnu 
<220> 

<223> Origine de la sequence :Organisme du sol 
<400> 72 

atgattagta gcaatactaa tcgatgacga gcggcggacg ggtgagtaat acgtaggaac 60 
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ctgcccttaa gcgggggata actaagggaa actttagcta ataccgcata aactcgagag 120 
agaaaagctg cagcaatgtg gcacttgagg aggggcctgc gtcagattag ctagttggtg 180 
aggtaatagc tcaccaaggc gatgatctgt aactggtctg agaggacgac cagtcacact 240 
gggactgaga cacggcccag actcctacgg gaggcagcag tggggaatat tggacaatgg 300 
gggcaaccct gatccagcga tgccgcgtgg gtgaagaagg ccttcgggtt gtaaagccct 360 
ttaggtcggg aagaaggtta gtagaggaaa tgctattaac ttgacggtac cgacagaata 420 
agcaccggca aactctgtgc cagcagccgc ggtaatacag agggtgcgag cgttaatcgg 480 
atttactggg cgtaaagggc gcgtaggcgg tgagatgtgt gtgatgtgaa agccccaggc 540 
tcaacctggg aagtgcatcg caaactgtct gactggagta tatgagaggg tggcggaatt 600 
tccggtgtag cggtgaaatg cgtagagatc ggaaggaacg tcgatggcga aggcagccac 660 
ctggcataat actgacgctg aggcgcgaaa gcgtggggat cgaacaggat tagataccct 720 
ggtagtccac gctgtaaact atgagtacta gatgttggta ggggaaccta tcggtatcga 780 
agctaacgcg ataagtattc cgcctgggaa gtacggccgc aaggttgaaa ctcaaatgaa 840 
ttgacggggg cccgcacaag cggtggagca tgtggtttaa ttcgatgcaa cgcgaagaac 900 
cttacctacc cttgacatcc tgagaatctg gcttagtagc tggagtgccg aaaggagctc 960 
agagacaggt gctgcatggc tgtcgtcagc tcgtgttgtg agatgttggg ttaagtcccg 102 0 
taacgagcgc aacccttgcc cttagttgcc atcatttagt tggggactct aaggggaccg 1080 
ccagtgatga actggaggaa ggcggggacg acgtcaagtc atcatggcct ttatgggtag 1140 
ggccacacac gtgctacaat ggggcgtacg gagggtcgca aacccgcgag ggggagctaa 1200 
tctcataaag cgtctcgtag tccggattgg agtctgcaac tcgactccat gaagttggaa 1260 
tcgctagtaa tcgcgaatca gcattg 1286 



<210> 73 
<211> 1288 
<212> ADN 

<213> Organime Inconnu 
<220> 

<223> Origine de la sequence :Organisme du sol 
<400> 73 

cggggcaacc ctggcggcga gcggcgaacg ggtgagtaat gcatcggaac gtgtcctctt 60 
gtg9999 ata accagtcgaa agactggcta ataccgcatg agatcgaaag atgaaagcag 120 
gggaccgcaa ggccttgcgc gagaggagca gccgatgccg gattagctag ttggtggggt 18 0 
aaaagcctac caaggcgacg atccgtagct ggtctgagag gacgaccagc cacactggga 240 
ct 9 a 9 acac 9 gcccagactc ctacgggagg cagcagtggg gaattttgga cagtgggggc 3 00 
aaccctgatc cagccatgcc gcgtgtgtga agaaggcctt cgggttgtaa agcactttcg 360 
gacggaacga aatcgcgcga gttaatagtt cgcgtggatg acggtaccgt aagaagaagc 420 
accggctaac tacgtgccag cagccgcggt aatacgtagg gtgcgagcgt taatcggaat 480 
tactgggcgt aaagtgtgcg caggcggctt cgcaagtcga gtgtgaaatc cccgagctta 54 0 
acttgggaat tgcgctcgaa actacggagc cggagtgtgg cagaggaagg tggaattcca 600 
cgtgtagcgg tgaaatgcgt agagatgtgg aggaacaccg atggcgaagg cggccttctg 660 
ggccaacact gacgctcatg cacgaaagcg tggggagcaa acaggattag ataccctggt 720 
agtccacgcc ctaaacgatg atgactagtt gttggaggag ttaaatcctt tagtaacgca 780 
gctaacgcgt gaagtcatcc gcctggggag tacggtcgca agattaaaac tcaaaggaat 840 
tgacgggggc ccgcacaagc ggtggatgat gtggtttaat tcgatgcaac gcgaaaaacc 900 
ttacctaccc ttgacatgct aggaacgctg cagaaatgta gcggtgcccg aaagggaacc 960 
tagacacagg tgctgcatgg ctgtcgtcag ctcgtgtcgt gagatgttgg gttaagtccc 1020 
gcaacgagcg caacccctgc cattagttgc tacattcagt tgagcactct aatgggactg 1080 
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ccggtgacaa accggaggaa ggtggggatg acgtcaagtc ctcatggccc ttatgggtag 1140 

ggctacacac gtcatacaat ggcgcgtaca gagggttgcc aacccgcgag ggggagccaa 1200 

tcccagaaag cgcgtcgtag tccggattgg agtctgcaac tcgactccca tgaagtcgga 1260 

atcgctagta atcgcggatc agcatgtc 1288 



<210> 74 
<211> 600 
<212> ADN 

<213> Organime Inconnu 
<220> 

<223> Origine de la sequence :Organisme du sol 
<400> 74 

cgtgccagca gccgcggtaa tacgtaggtg gcaagcgttg tccggaatta ttgggcgtaa 60 

agcgcgcgca ggtggtttct taagtctgat gtgaaagccc acggcttaac cgtggagggt 12 0 

cattggaaac tgggagactt gagtgcagaa gaggaaagtg gaattccaag tgtagcggtg 180 

aaatgcgtag agatttggag gaacaccagt ggcgaaggcg actttctggt ctgcaactga 240 

cgctgaggcg cgaaagcatg gggagcaaac aggattagat accctggtag tccatgccgt 3 00 

aaacgatgag tgctaagtgt tagggggttt ccgcccctta gtgctgcagc taacgcatta 360 

agcactccgc ctggggagta cgaccgcaag gttgaaactc aaaggaattg acgggggccc 420 

gcacaagcgg tggagcatgt ggtttaattc gaagcaacgc gaagaacctt accaggtctt 480 

gacatcccga tgancgctct agagatagag ttttcccttc ggggacattg gtgacaggtg 540 

gtgcatggtt gtcgtcagct cgtgtcgtga gatgttgggt taagtcccgc aacgagcgca 600 



<210> 75 

<211> 601 

<212> ADN 

<213> Organime Inconnu 



<220> 

<223> Origine de la sequence :Organisme du sol 



<400> 75 

cgtgccagca 

agcgcgcgca 

cattggaaac 

aaatgcgtag 

cgctgaggcg 

aaacgatgag 

gcactccgcc 

cacaagcggt 

acatcccgat 

gcatggttgt 



gccgcggtaa 
ggtggtttct 
tgggagactt 
agatttggag 
cgaaagcatg 
tgctaagtgt 
tggggagtac 
ggagcatgtg 
gacgctctag 
cgtcagctcg 



tacgtaggtg 
taagtctgat 
gagtgcagaa 
gaacaccagt 
gggagcaaac 
tagggggttt 
gaccgcaagg 
gtttaattcg 
agatagagtt 
tgtcgtgaga 



gcaagcgttg 
gtgaaagccc 
gaggaaagtg 
ggcgaaggcg 
aggattagat 
ccgcccctta 
ttgaaactca 
aagcaacgcg 
ttcccttcgg 
tgttgggtta 



tccggaatta 
acggcttaac 
gaattccaag 
actttctggt 
accctggtag 
gtgctgagct 
aaggaattga 
aagaacctta 
ggacattggt 
agtcccgcaa 



ttgggcgtaa 60 
c 9t99 a 999t 120 
tgtagcggtg 180 
ctgcaactga 240 
tccatgccgt 300 
aacgcattaa 360 
cgggggcccg 420 
ccaggtcttg 480 
gacaggtggt 54 0 
cgagcgcacc 600 
601 



<210> 76 
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<211> 1236 
<212> ADN 

<213> Organime Inconnu 
<220> 

<223> Origine de la sequence zOrganisme du sol 
<400> 76 

tgccctgtag acggggataa cttcgggaaa ccggagctaa taccggataa tcctcttccc 6 0 
cacatgggga agagttgaaa ggcgctttcg cgtcactaca ggatgggccc gcggtgcatt 120 
agctagttgg tagggtaacg gcctaccaag gcgacgatgc atagccgacc tgagagggtg 180 
atcggccaca ttgggactga gacacggccc aaactcctac gggaggcagc agtagggaat 24 0 
cttccacaat ggacgaaagt ctgatggagc aacgccgcgt gagtgatgaa ggttttcgga 300 
tcgtaaaact ctgttgtaag ggaagaacca gtacgtcagg caatggacgt accttgacgg 3 60 
taccttatta gaaagccacg gctaactacg tgccagcagc cgcggtaata cgtaggtggc 42 0 
aagcgttgtc cggaattatt gggcgtaaag cgcgcgcagg tggtttctta agtctgatgt 480 
gaaagcccac ggcttaaccg tggagggtca ttggaaactg ggagacttga gtgcagaaga 54 0 
ggaaagtgga attccaagtg tagcggcgaa atgcgtagag atttggagga acaccagtgg 600 
cgaaggcgac tttctggtct gcaactgacg ctgaggcgcg aaagcatggg gagcaaacag 660 
gattagatac cctggtagtc catgctgtaa acgatgagtg ctaagtgtta gggggtttcc 720 
gccccttagt gctgcagcta acgcattaag cactccgcct ggggagtacg accgcaaggt 780 
tgaaactcaa aggaattgac gggggcccgc acaagcggtg gagcatgtgg tttaattcga 84 0 
agcaacgcga agaaccttac caggtcttga catcccgatg atcgctctgg agatagagtt 900 
ttcccttcgg ggacattggt gacaggtggt gcatggttgt cgtcagctcg tgtcgtgaga 960 
tgttgggtta agtcccgcaa cgagcgcaac ccttaatctt agttgccatc atttagttgg 1020 
gcactctaag gtgactgccg gtgataaacc ggaggaaggt ggggatgacg tcaaatcatc 1080 
atgcccctta tgacctgggc tacacacgtg ctacaatgga cggtacaaag agtcgctaac 114 0 
tcgcgagagt atgctaatct catagaaccg ttctcagttc ggattgtagg ctgcaactcg 1200 
cctacatgaa gccggaatcg ctagtaatcg cggatc 1236 



<210> 77 
<211> 815 
<212> ADN 

<213> Organime Inconnu 
<220> 

<223> Origine de la sequence rOrganisme du sol 
<400> 77 

caagcgttgt ccggaattat tgggcgtaaa gagctcgtag gcggtttgtc gcgtctgctg 60 
tgaaaactcg aggctcaacc tcgggcttgc agtgggtacg ggcagactag agtgcggtag 120 
gggtgactgg aattcctggt gtagcggtgg aatgcgcaga tatcaggagg aacaccgatg 18 0 
gcgaaggcag gtcactgggc cgcaactgac gctgaggagc gaaagcatgg ggagcgaaca 24 0 
ggattagata ccctggtagt ccatgccgta aacgttgggc actaggtgtg gggctcattc 3 00 
cacgagttcc gtgccgcagc aaacgcatta agtgccccgc ctggggagta cggccgcaag 360 
gcttaaaact caaagaaatt gacgggggcc cgcacaagcg gcggagcatg cggattaatt 420 
cgatgcaacg cgaagaacct taccaaggct tgacatacac cggaaacttc cagagatggt 4 80 
tgccccgcaa ggtcggtgta caggtggtgc atggttgtcg tcagctcgtg tcgtgaagat 54 0 
gttgggttaa gtcccgcaac gagcgcaacc ctcgtcctat gttgccagca cgtgatggtg 600 
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gggactcata ggagactgcc ggggtcaact cggaggaagg tggggatgac gtcaaatcat 660 
catgcccctt atgtcttggg cttcacgcat gctacaatgg ccggtacaaa gggctgcgat 720 
accgcaaggt ggagcgaatc ccaaaaagcc ggtctcagtt cggattgggg tctgcaactc 780 
gaccccatga agtcggagtc gctagtaatc gcaga 815 



<210> 78 
<211> 826 
<212> ADN 

<213> Organime Inconnu 
<220> 

<223> Origine de la sequence : Organisme du sol 



<400> 78 

tcgtaggtgg cttgtcacgt cgggtgtgaa agcttggggc ttaactccag gtctgcattc 60 
gatacgggct ggctagaggt aggtagggga gaacggaatt cctggtgtag cggtgaaatg 120 
cgcagatatc aggaggaaca ccggtggcga aggcggttct ctgggcctta cctgacgctg 180 
aggagcgaaa gcgtggggag cgaacaggat tagataccct ggtagtccac gctgtaaacg 24 0 
ttgggcgcta ggtgtgggga ccttccacgg tttccgcgcc gtagctaacg cattaagcgc 3 00 
cccgcctggg gagtacggcc gcaaggctaa aactcaaagg aattgacggg ggcccgcaca 360 
agcggcggag catgttgctt aattcgacgc aacgcgaaga accttaccaa ggcttgacat 420 
cgcccggaaa gcttcagaga tggagccctc ttcggactgg gtgacaggtg gtgcatggct 480 
gtcgtcagct cgtgtcgtga gatgttgggt taagtcccgc aacgagcgca acccttgttc 540 
aatgttgcca gcaacatcct tcggggtggt tggggactca ttggagactg ccggggtcaa 600 
ctcggaggaa ggtggggacg acgtcaagtc atcatgcccc ttatgtcttg ggctgcaaac 660 
atgctacaat ggccggtaca gagggttgcg ataccgcaag gtggagcgaa tccctaaaag 72 0 
ccggtctcag ttcggattgg ggtctgcaac tcgaccccat gaagtcggag tcgctagtaa 780 
tcgcagatca gcaacgctgc ggtgaatacg ttcccgggcc ttgtac 826 



<210> 79 
<211> 799 
<212> ADN 

<213> Organime Inc onnu 
<220> 

<223> Origine de la sequence : Organisme du sol 



<400> 79 

cgtaggcggt ttgtcgcgtc tgccgtgaaa gtccggggct caactccgga tctgcggtgg 60 
gtacgggcag actagagtga tgtaggggag actggaattc ctggtgtagc ggtgaaatgc 12 0 
gcagatatca ggaggaacac cgatggcgaa ggcaggtctc tgggcattaa ctgacgctga 180 
ggagcgaaag catggggagc gaacaggatt agataccctg gtagtccatg ccgtaaacgt 24 0 
tgggcactag gtgtggggga cattccacgt tttccgcgcc gtagctaacg cattaagtgc 300 
cccgcctggg gagtacggcc gcaaggctaa aactcaaagg aattgacggg ggcccgcaca 360 
agcggcggag catgcggatt aattcgatgc aacgcgaaga accttaccaa ggcttgacat 420 
gaaccggaaa cacctggaaa caggtgcccc gcttgcggtc ggtttacagg tggtgcatgg 480 
ttgtcgtcag ctcgtgtcgt gagatgttgg gttaagtccc gcaacgagcg caaccctcgt 540 
tctatgttgc cagcgcgtta tggcggggac tcataggaga ctgccggggt caactcggag 600 
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gaaggtgggg acgacgtcaa atcatcatgc 

aatggccggt acaaagggtt gcgatactgt 

cagttcggat tggggtctgc aactcgaccc 

tcagcaacgc tgcggtgaa 



cccttatgtc ttgggcttca cgcatgctac 660 
gaggtggagc taatcccaaa aagccggtct 720 
catgaagtcg gagtcgctag taatcgcaga 780 

799 



<210> 80 
<211> 1250 
<212> ADN 

<213> Organime Inconnu 
<220> 

<223> Origine de la sequence :Organisme du sol 
<400> 80 

tgccagcttg ctggtggatt agtggcgaac gggtgagtaa cacgtgagta acctgccctt 60 
aactctggga taagcctggg aaactgggtc taatgccgga tatgactcct catcgcatgg 120 
tggggggtgg aaagcttttt gtggttttgg atggactcgc ggcctatcag cttgttggtg 180 
aggtaatggc tcaccaaggc gacgacgggt agccggcctg agagggtgac cggccacact 24 0 
gggactgaga cacggcccag acttctacgg gaggcagcag tggggaatat tgcacaatgg 3 00 
gcgaaagcct gatgcagcga cgccgcgtga gggatgacgg ccttcgggtt gtaaacctct 360 
ttcagtaggg aagaagcgaa agtgacggta cctgcagaag aagcgccggc taactacgtg 420 
ccagcagccg cggtaatacg tagggcgcaa gcgttatccg gaattattgg gcgtaaagag 480 
ctcgtaggcg gtttgtcgcg tctgccgtga aagtccgggg ctcaactccg gatctgcggt 540 
gggtacgggc agactagagt gatgtagggg agactggaat tcctggtgta gcggtgaaat 60 0 
gcgcagatat caggaggaac accgatggcg aaggcaggtc tctgggcatt aactgacgct 660 
gaggagcgaa agcatgggga gcgaacagga ttagataccc tggtagtcca tgccgtaaac 720 
gttgggcact aggtgtgggg gacattccac gttttccgcg ccgtagctaa cgcattaagt 780 
gccccgcctg gggagtacgg ccgcaaggct aaaactcaaa ggaattgacg ggggcccgca 840 
caagcggcgg agcatgcgga ttaattcgat gcaacgcgag gaaccttacc aaggcttgac 900 
atgaaccgga aatacctgga aacaggtgcc ccgcttgcgg tcggtttaca ggtggtgcat 960 
ggttgccgtc agctcgtgtc gtgagatgtt gggttaagtc ccgcaacgag cgcaaccctc 1020 
gttctatgtt gccagcgcgt tatggcgggg actcatagga gactgccggg gtcaactcgg 1080 
aggaaggtgg ggacgacgtc aaatcatcat gccccttatg tcttgggctt cacgcatgct 1140 
acaatggccg gtacaaaggg ttgcgatact gtgaggtgga gctaatccca aaaagccggt 1200 
ctcagttcgg attggggtct gcaactcgac cccatgaagt cggagtcgct 1250 



<210> 81 
<211> 1210 
<212> ADN 

<213> Organime Inconnu 
<220> 

<22 3> Origine de la sequence :Organisme du sol 
<400> 81 

cgctaatacc ggatacggcg cgagagtctt cggactttcg cgagaaagat tcgcaaggat 60 
cactgaggga cgagcctgcg gcccatcagc tagttggtga ggtaagagct caccaaggct 120 
aagacgggta gctggtctga gaggatgatc agccacactg gaactgagac acggtccaga 180 



3DOCID: <WO 0140497A2_I_> 



WO 01/40497 



46 



PCT/FR00/03311 



ctcctacggg aggcagcagt ggggaatatt gcgcaatggg cgaaagcctg acgcagccac 240 
gccgcgtgag cgatgagggc cttcgggtcg taaagctctg tggggagaga cgaataaggc 300 
cggtgaagag tcggccttga cggtatctcc ttagcaagca ccggctaact ccgtgccagc 360 
agccgcggta atacggaggg tgcaaacgtt gctcggaatc attgggcgta aagcgcacgt 42 0 
aggcggcgtg ataagttggg tgtgaaagcc ctgggctcaa cccaggaagt gcattcaaaa 480 
ctgtcacgct tgaatctcgg agggggtcag agaattcccg gtgtagaggt gaaattcgta 540 
gatatcggga ggaataccag tggcgaaggc gctggcctgg acgaagattg acgctgaggt 600 
gcgaaagcgc ggggagcaaa caggattaga taccctggta gtccgcgctg taaacgatga 660 
gtgctagacg ggggaggtat tgaccccttc gctgccgaag ctaacgcgtt aagcactccg 720 
cctggggagt acggtcgcaa gactaaaact caaaggaatt gacgggggcc cgcacaagcg 780 
gtggagcatg tggtttaatt cgacgcaacg cgcaaaacct tacctgggtt aaatccgccg 840 
gaacctggct gaaaggctgg ggtgccctcc ggggaatcgg tgagaaggtg ctgcatggct 900 
gtcgtcagct cgtgtcgtga gatgttgggt taagtcccgc aacgagcgca acccctatcg 960 
tcagttgcca acattaaggt gggaactctg gcgagactgc cggtctaaac cggaggaagg 1020 
tggggacgac gtcaagtcct catggccctt atgcccaggg ctacacacgt gctacaatgg 1080 
ctggtacaat gagccgcaaa accgcgaggt caagctaatc tcaaaaaacc agtctcagtt 1140 
cggatcggag tctgcaactc gactccgtga agctggaatc gctagtaatc gaagatcagc 1200 
acgctttcgg 1210 



<210> 82 
<211> 1272 
<212> ADN 

<213> Organime Inconnu 
<220> 

<223> Origine de la sequence :Organisme du sol 
<400> 82 

gatgccagct tgctggtgga ttagtggcga acgggtgagt aacacgtgag taacctgccc 60 
ttaactctgg gataagcctg ggaaactggg tctaataccg gatatgactc ctcatcgcat 120 
ggtggggggt ggaaagcttt ttgtggtttt ggatggactc gcggcctatc agcttgttgg 180 
tgaggtaatg gctcaccaag gcgacgacgg gtagccggcc tgagagggtg accggccaca 24 0 
ctgggactga gacacggccc agactcctac gggaggcagc agtggggaat attgcacaat 3 00 
gggcgaaagc ctgatgcagc gacgccgcgt gagggatgac ggccttcggg ttgtaaacct 3 60 
ctttcagtag ggaagaagcg aaagtgacgg tacctgcaga agaagcgccg gctaactacg 420 
tgccagcagc cgcggtaata cgtagggcgc aagcgttatc cggaattatt gggcgtaaag 4 80 
agctcgtagg cggtttgtcg cgtctgccgt gaaagtccgg ggctcaactc cggatctgcg 540 
gtgggtacgg gcagactaga gtgatgtagg ggagactgga attcctggtg tagcggtgaa 600 
atgcgcagat atcaggagga acaccgatgg cgaaggcagg tctctgggca ttaactgacg 660 
ctgaggaacg aaagcatggg gagcgaacag gattagatac cctggtagtc catgccgtaa 720 
acgttgggca ctaggtgtgg gggacattcc acgttttccg cgccgtagct aacgcattaa 780 
gtgccccgcc tggggagtac ggccgcaagg ctaaaactca aaggaattga cgggggcccg 840 
cacaagcggc ggagcatgcg gattaattcg atgcaacgcg aagaacctta ccaaggcttg 900 
acatgaaccg gaaatacctg gaaacaggtg ccccgcttgc ggtcggttta caggtggtgc 960 
atggttgtcg tcagctcgtg tcgtgagatg ttgggttaag tcccgcaacg agcgcaaccc 102 0 
tcgttctatg ttgccagcgc gttatggcgg ggactcatag gagactgccg gggtcaactc 1080 
ggaggaaggt ggggacgacg tcaaatcatc atgcccctta tgtcttgggc ttcacgcatg 114 0 
ctacaatggc cggtacaaag ggttgcgata ctgtgaggtg gagctgatcc caaaaagccg 1200 
gtcccagttc ggattggggt ctgcaactcg accccatgaa gtcggagtcg ctagtaatcg 1260 
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cagatcagca ac 1272 



<210> 83 
<211> 1247 
<212> ADN 

<213> Organime Inconnu 
<220> 

<223> Origine de la sequence :Organisme du sol 
<400> 83 

tgtttagtag caatactaaa tgatgacgag cggcggacgg gtgaggaaca cgtaggaacc 60 
tgcccaagag agggggacaa ccaagggaaa ctttggctaa taccgcataa tctctacgga 12 0 
gaaaagttgc ccgtaagggt ggcgcttttg gaggggcctg cgtccgatta gttagttggt 18 0 
gaggtaatag ctcaccaaga ctgtgatcgg taactggtct gagaggacga ccagtcacac 24 0 
tgggactgag acacggccca gactcctacg ggaggcagca gtggggaatc ttggacaatg 3 00 
ggggcaaccc tgatccagcg atgccgcgtg ggtgaagaag gccttcgggt tgtaaagccc 3 60 
tttaggcggg gaagaaggat atgggatgaa taagcctgta ttttgacggt acccgcagaa 420 
taagcaccgg caaactctgt gccagcagcc gcggtaatac agagggtgcg agcgttaatc 480 
ggatttactg ggcgtaaagg gcgcgtaggc ggttgtgtga gtgtgatgtg aaagccccgg 540 
gctcaacctg ggaagtgcat cgcaaacgac acaactggag tatatgagag ggtggcggaa 600 
tttccggtgt agcggtgaaa tgcgtagaga tcggaaggaa cgtcgatggc gaaggcagcc 660 
acctggcata atactggcgc tgaggcgcga aagcgtgggg agcgaacagg attagatacc 720 
ctggtagtca cgcccgtaaa cgatgagaac tagatgttgg agggggaacc cttcagtatc 780 
gaagctaacg cgataagttc tccgcctggg aagtacagtc gcaagactga aactcaaaag 840 
aattgacggg ggcccgcaca agcggtggag catgtggttt aattcgatgc aacgcgaaga 900 
accttacctg cccttgacat cctgcgaatc ttgccgagag gtgagagtgc cgcagggagc 960 
gcagagacag gtgctgcatg gctgtcgtca gctcgtgttg tgagatgttg ggttaagtcc 1020 
cgtaacgagc gcaacccttg tccttagttg ccatcattta gttggggact ctaaggagac 1080 
cgccggtgat gaaccggagg aaggcgggga cgacgtcaag tcatcatggc ctttatgggt 114 0 
agggctacac acgtgctaca atggggcgta cagagggtcg ccaacccgcg agggggagcc 1200 
aatctcttaa agcgtctcgt agtccggatt ggagtctgca actcgac - — 



<210> 84 
<211> 1292 
<212> ADN 

<213> Organime Inconnu 
<220> 

<22 3> Origine de la sequence :Organisme du sol 
<400> 84 

ggctcgcaag agcaaccggc gaacgggtgc gtaacacgtg aacaacctgc cctcgtgtgg 60 
gggatagccg ggctaacgcc cgggtaatac cgcatacgtt ctctctgggg agtcctgggg 120 
agaggaaagc tccggcgcac ggggaggggt tcgcggccta tcagctagtt ggcggggtaa 180 
tggcccacca aggcgacgac gggtagctgg tctgagagga tggccagcca cattgggact 24 0 
gagagacggc ccagactcct acgggaggca gcagtgggga atcttgcgca atggccgaaa 300 
ggctgacgca gcgacgccgc gtgtgggagg acgcctttcg gggtgtaaac cactgttgcc 360 
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cgggacgaac agcctctttc gagaggtctg acggtaccgg gtgaggaagc accggctaac 420 

tccgtgccag cagccgcggt aatacggagg gtgcgagcgt tgtccggaat cattgggcgt 480 

aaagggcgcg taggtggccc ggtcagttcg tggtgaaagc gcggggctca accctgcgtc 54 0 

ggccatgaat actgccgcgg ctggagcact gtagaggcag gcggaattcc gggtgtagcg 600 

gtggaatgcg tagagatccg gaagaacacc ggtggcgaag gcggcctgct gggcagtagc 660 

tgacactgag gcgcgacagc gtggggagca aacaggatta gataccctgg tagtccacgc 720 

cgtaaacgat gggcactagg cgcttggggg agcgaccccc cgagggccgg cgctaacgca 780 

ttaagtgccc cgcctgggga gtacggccgc aaggctgaaa ctcaaaggaa ttgacggggg 84 0 

cccgcacaag cggtggagca tgtggtttaa ttcgacgcaa cgcgaagaac cttacctagg 900 

cttgacatac acgggaaacc ggtcagaaac ggccggccct cttcggagcc cgtgcacagg 960 

tgctgcatgg ctgtcgtcag ctcgtgtcgt gagatgttgg gttaagtccc gcaacgagcg 1020 

caacccctgt ctctagttgc cagcgcgtca tggcggggac tctagagaga ctgccggtgc 1080 

caaaccggag gaaggtgggg atgacgtcaa gtcatcatgg tccttacgtc tagggctaca 1140 

cacgtgctac aatggcgggg acagagggtc gcgagccggc aacggcaagc caatcccgta 12 00 

aaccccgcct cagttcggat tgtcgtctgc aactcgacgg catgaagctg gaatcgctag 1260 
taatcgtgga tcagctacgc cacggtgaat ac 12 92 



<210> 85 
<211> 1300 
<212> ADN 

<213> Organime Inconnu 
<220> 

<223> Origine de la sequence :Organisme du sol 
<400> 85 

tcccttcggg agcaagtaca gcggcgaacg ggtgagtaac acgtaggtaa cctaccctgg 60 

agactgggat aacctgccga aaggcgggct aataccagat aagaccacga gggctgcggc 12 0 

ccttggggca aaaggtggcc tctacttgta agctaccact ccgggatggg cctgcgcgcc 180 

attagctagt tggcggggta acggcccacc aaggcagaga tggctagctg gtctgagagg 240 

atggccagcc acacagggac tgagacacgg cccagactcc tacgggaggc agcagtgggg 3 00 

aatattgcgc aatgggcgaa agcctgacgc agcgacgccg cgtgggtgat gaaggccttc 360 

gggtcgtaaa gccctgtcaa gagggacgaa accttgtcga cctaacacgt cggcaacctg 420 

acggtacctc tgaaggaagc accggctaac tccgtgccag cagccgcggt aatacggagg 48 0 

gtgcgagcgt tgttcggaat tactgggcgt aaagcgcgtg taggcggcct cttcagtctg 54 0 

gtgtgaaagc ccggggctca accccggaag tgcattggat actgggaggc tggagtaccg 600 

gagaggaggg tggaattcct ggtgtagcgg tgaaatgcgt agatatcagg aggaacacct 660 

gtggcgaagg cggccctctg gacggatact gacgctgaga cgcgaaagcg tggggagcaa 720 

acaggattag ataccctggt agtccacgct gtaaacgatg ggcactaggt gttcggggta 78 0 

ttgaccccct gagtgccgca gctaacgcat taagtgcccc gcctggggaa tacggccgca 840 

aggttaaaac tcaaaggaat tgacgggggc ccgcacaagc ggtggagcat gtggtttaat 900 

tcgacgcaac gcgaagaacc ttacctgggc tagacaacat cggacagcct cagaaatgag 960 

gtctccccgc aaggggccgg tggttcaggt gctgcatggc tgtcgtcagc tcgtgtcgtg 1020 

agatgttggg ttaagtcccg caacgagcgc aacccctgtc tctagttgct accattcagt 1080 

tgagcactct agagagactg cccngtgtta aacgggagga aggtggggac gacgtcaagt 1140 

cctcatggcc cttatgtcca gggctacaca cgtgctacaa tgggcgatac aaagggctgc 1200 

gaacccgcga ggggaagcca atcccaaaaa gtcgctctca gttcggattg gagtctgcaa 1260 
ctcgactcca tgaaggcgga atcgctagta atcgcggatc 13 00 
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<210> 86 
<211> 1186 
<212> ADN 

<213> Organime Inconnu 
<220> 

<223> Origine de la sequence :Organisme du sol 
<400> 86 

caatgggcag cggcggacgg gtgagtaaca cgtgggaatg tacctttcgg tgcggaacaa 60 
ctcagggaaa cttgagctaa tgccgcatac gcccttacgg ggaaagattt atcgccgaaa 120 
gatcagcccg cgttggatta gctagttggt gaggtaatgg cccaccaagg cgacgatcca 180 
tagctggttt gagagaacga ccagcctcac tgggactgag acacggccca gactcctacg 24 0 
ggaggcagca gttgggaatc ttggacaatg ggggaaaccc tgatccagcc atgccgcgtg 3 00 
agtgatgaag gccttcgggt tgtaaaactc tttcgacggg gacgataatg acggtacccg 360 
tagaagaagc tccggctaac ttcgtgccag cagccgcggt aatacgaagg gggctagcgt 42 0 
tgttcggaat tactgggcgt aaagcgtgcg caggcggcta tccaagtcag tggtgaaagc 480 
ccggagctca actccggaat tgccattgaa actgtttagc ttgagtacga gagaggtgag 540 
tggaataccc agtgtagagg tgaaattcgt agatattggg tagaacaccg gtggcgaagg 600 
cggctcactg gctcgtaact gacgctcagg cacgacagcg tggggatcaa acaggattag 660 
ataccctggt agtccacgcc gtaaacgatg aacgctagcc gttggatagc ttgctattca 720 
gtggcgcagc taacgcatta agcgttccgc ctggggagta cggccgcaag gttgagactc 780 
agaggaattg acgggggccc gcacaagcgg tggagcatgt ggtttaattc gacgcaacgc 840 
gcagaacctt accagggttt gacatcctgt gctcgccggt gaaagccggt tttcccgcaa 900 
gggacgcaga gacaggtgct gcatggctgt cgtcagctcg tgtcgtgaga tgttgggtta 960 
agtcccgcaa cgagcgcaac cctcgccttt agttgccatc attcagttgg gcactctaga 1020 
gggaccgccg gcgacaagcc ggaggaaggt ggggatgacg tcaagtcccc atggccctta 1080 
caccctgggc tacacacgtg ctacaatggc ggtgacagtg ggcacgagct cgcgagagtc 114 0 
agctaatccc aaaaaaccgt cccagttcag attgcactct gcaact 1186 



<210> 87 
<211> 1454 
<212> ADN 

<213> Organime Inconnu 
<220> 

<223> Origine de la sequence :Organisme du sol 
<400> 87 

cgacggccag tgaattgtaa tacgactcac tatagggcga attgggccct ctagatgcat 60 
gctcgagcgg ccgccagtgt gatggatatc tgcagaattc gcccttcagg cctaacacat 120 
gcaagtcgag cgagaaaggg cgcttcggcg cctgagtaca gcggcgcacg ggtgcgtaac 180 
acgtgggcaa tctgtccttg agatggggat aacccagcga aagttgggct aataccgaat 24 0 
aagactacag gaggcaactc ccgtggttaa agggtgctct ctgcggggag catgcgcttg 3 00 
aggaggagcc cgcggcctat cagctagttg gtagggtcac ggcctaccaa ggcgaagacg 360 
ggtagctggt ctgagaggat gaccagccac acggggactg agacacggcc ccgactccta 42 0 
cgggaggcag cagtggggaa tattgggcaa tgggggaaac cctgacccag cgacgccgcg 4 80 
tgggtgatga aggccttcgg gtcgtaaagc cctgtcgggc ggaacgaagg ttctcacggc 540 
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aaatagccgt gagaggtgac ggtaccgccg aaggaagcac cggccaactc cgtgccagca 600 

gccgcggtaa gacggagggt gcaagcgttg ctcggaatca ctgggcgtaa agggtgcgta 660 

ggcggtctcg caagtctggc gtgaaagccc aaggctcagc cttggaagtg cgctcgaaac 720 

tgcgaggctg gagtgccgga ggggagagtg gaattcccgg tgtagcggtg aaatgcgtag 780 

agatcgggag gaataccggt ggcgaaagcg actctctgga cggcaactga cgctgaggca 840 

cgaaagcgtg gggagcaaac aggattagat accctggtag tccacgccgt aaacgatgga 900 

cactaggtgt cgggggtatc cactccctcg gtgccgccgc taacgcagta agtgtcccgc 960 

ctgggaagta cggtcgcaag attaaaactc aaaggaattg acgggggccc gcacaagcgg 1020 

tggagcatgt ggttcaattc gatgcaacgc gaagaacctt acctgggttt gacatctggc 1080 

gaatctctgg gaaaccagag agtgcccgca ggggagcgcc aagacaggtg ctgcatggct 1140 

gtcgtcagct cgtgccgtga ggtgttgggt taagtcccgc aacgagcgca acccttaccc 1200 

ttagttgccc ccgggtcaag ccgtggcact ccaagggaac tgcccgtgtt aagcgggagg 1260 

aaggtgggga cgacgtcaag tcatcatggc ctttatatcc agggctacac acgtgctaca 1320 

atggctggga canagcgtgg ccaacgcgcg agcgggagct aatcgcaaaa ccccagcctc 1380 

agttcggatc ggagtctgca actcgactcc gtgaagctgg aatcgctagt aatcgcggat 1440 

cagcatgccg cggt 1454 



<210> 88 
<211> 1307 
<212> ADN 

<213> Organime Inconnu 
<220> 

<223> Origine de la sequence :Organisme du sol 
<400> 88 

cccttcgggg agcgagtaca gcggcgaacg ggtgagtaac acgtaggtaa cctaccctgg 60 
tgactgggat aacttgccga aaggcgggct aataccagat aagaccacga gggctgcggc 120 
ctttggggta aaagatggcc tctgcttgca tgctatcacg ccgggatggg cctgcgcgcc 18 0 
attagctagt tggtgaggta acggctcacc aaggcagaga tggctagctg gtctgagagg 24 0 
atggccagcc acactgggac tgagacacgg cccagactcc tacgggaggc agcagtgggg 3 00 
aatattgcgc aatgggcgaa agcctgacgc agcgacgccg cgtgggtgat gaaggccttc 3 60 
gggtcgtaaa gccctgtcaa gagggacgaa acctcgccga cccaatacgt cggcgacctg 420 
acggtacctc tgaaggaagc accggctaac tccgtgccag cagccgcggt aatacggagg 480 
gtgcaagcgt tgttcggaat cactgggcgt aaagcgcgtg taggcggcct tcttagtctg 540 
gtgtgaaagc ccggggctca accccggaag agcattggat actggaaggc. tggagtaccg 600 
gagaggaggg tggaattcct ggtgtagcgg tgaaatgcgt agatatcagg aggaacaccg 660 
gtggcgaagg cggccctctg gacggatact gacgctgaga cgcgacagcg tggggagcaa 72 0 
acaggattag ataccctggt agtccacgcc gtaaacgatg ggtactaggt gttcggggta 780 
ttgaccccct gagtgccgca gctaacgcat taagtacccc gcctggggac tacggccgca 84 0 
aggctaaaac tcaaaggaat tgacgggggc ccgcacaagc ggtggagcat gtggtttaat 900 
tcgacgcaac gcgaagaacc ttacctgggc tagacaacac tggacagccc cagaaatggg 960 
gtcttcccgc aagggactgg tggttcaggt gctgcatggc tgtcgtcagc tcgtgtcgtg 1020 
agatgttggg ttaagtcccg caacgagcgc aacccctgtc tctagttgct accattaagt 1080 
tgagcactct agagagactg cccgtgttaa acgggaggaa ggtggggacg acgtcaagtc 1140 
ctcatggccc ttatgtccag ggctacacac gtgctacaat ggacagtaca aagggctgcg 1200 
aacccgtgag ggggagccaa tcccaaaaag ctgttctcag ttcggattgg agtctgcaac 1260 
tcgactccat gaaggcggaa tcgctagtaa tcgcggatca gcatgcc 13 07 
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<210> 89 
<211> 1305 
<212> ADN 

<213> Organime Inconnu 
<220> 

<223> Origine de la sequence :Organisme du sol 
<400> 89 

gggagcaatc cccaagtaga gcggcgaacg ggtgagtaac gcgtgggtaa tctgcctccg 60 
agtggggaac aacatcggga aactggtgct aataccgcat aacatcgttg ggtcttcgga 12 0 
tctgacgatc aaagccgggg accgcaaggc ctggcgcttg gagaggagcc cgcgtccgat 180 
tagctagttg gtggggtaat ggcccaccaa ggcttcgatc ggtagccggc ctgagagggc 24 0 
ggacggccac actgggactg agacacggcc cagactccta cgggaggcag cagtggggaa 3 00 
tttttcgcaa tgggcgaaag cctgacgaag caacgccgcg tggaggatga gggccttcgg 360 
gtcgtaaact cctgtcgacc gggacgaaag taggatggcc taatacgccg atctattgac 42 0 
tgtaccggtg gaggaagcca cggctaactc tgtgccagca gccgcggtaa tacagaggtg 480 
gcaagcgttg ttcggaatta ctgggcgtaa agggcgcgta ggcggcttgg tcagtcccgt 540 
gtgaaatccc tcggctcaac tgaggaactg cacgggaaac tgcctggctt gagttcggga 600 
gagggaagtg gaattccggg tgtagcggtg aaatgcgtag atatccggag gaacaccggt 660 
ggcgaaggcg gcttcctgga ccgacactga cgctgaggcg cgaaagctag gggagcaaac 720 
gggattagat accccggtag tcctagctgt aaacgatgag tgctgggtgt agggggtatc 780 
aaccccccct gtgccgaagc taacgcatta agcactccgc ctggggagta cggtcgcaag 840 
gctgaaactc aaaggaattg acgggggccc gcacaagcgg tggagcatgt ggttcaattc 900 
gacgcaacgc gaagaacctt accggggttt gaactgtacg ggacagctct agagatagag 960 
tcttccttcg ggacccgtac agaggtgctg catggctgtc gtcagctcgt gtcgtgagat 1020 
gttgggttaa gtcccgcaac gagcgcaacc cttgcctcct gttgccatca ggtaaagctg 1080 
ggcactctgg agagactgcc ggtgataaac cggaggaagg tggggatgac gtcaagtcct 114 0 
catggccttt atgccccggg ctacacacgt gctacaatgg ccggtacaaa gggtcgcaaa 1200 
accgcgaggt ggagctaatc ccaaaaagcc ggtcccagtt cggattgcag tctgcaactc 1260 
gactgcatga agttggaatc gctagtaatc gcggatcagc atgcc 1305 



<210> 90 
<211> 1299 
<212> ADN 

<213> Organime Inconnu 
<220> 

<223> Origine de la sequence :Organisme du sol 
<400> 90 

gggctttcgg gtcctgagta aagtggcgaa cgggtgagta acgcgtaggt aacctgacct 60 
cgagtgtgga ataacctggc gaaagccggg ctaataccgc atgacgtctt cgggtcttcg 12 0 
gacttgagga ccaaaggtgg cgagctttga gcgctgtcgc tcgagaaggg gcctgcgtcc 180 
cattagctag ttggtggggt gatggcctac caaggcgacg atgggtagcc gggctgagag 24 0 
gctgtccggc cacactggaa ccgagacacg gtccagactc ctacgggagg cagcagtggg 3 00 
gaatcttgcg caatggggga aaccctgacg caacgacgcc gcgtgggcga tgaaggcctt 360 
cgggtcgtaa agccctgtcg agcgggacga accgtgcgag ctctaacata gctcgtgcct 420 
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gacggtaccg ctagaggaag ccccggctaa ctccgtgcca gcagccgcgg taatacggag 480 
ggggctagcg ttattcggaa ttattgggcg taaagggcgt gtaggcggct ctgtgtgtcc 540 
catgtgaaag ccctcggctc aaccggggaa ctgcatggga aactgcggag cttgagtccg 600 
ggagaggtga gtggaattcc cagtgtagcg gtgaaatgcg tagatattgg gaggaacacc 660 
agtggcgaag gcggctcact ggaccggtac tgacgctgag acgcgaaagc caggggagca 720 
aacgggatta gataccccgg tagtcctggc tgtaaacgat gagcacttgg tgtggcgggt 780 
atcgacccct gccgtgctga agctaacgca ttaagtgctc cgcctgggga gtacggccgc 840 
aaggctgaaa ctcaaaggaa ttgacggggg cccgcacaag cggtggagca tgtggttcaa 900 
ttcgacgcaa cgcgaagaac cttacctggg tttgaactgc aggtgacagc ccctgaaagg 960 
gggtcttcct tcgggacacc tgtagaggtg ccgcatggct gtcgtcagct cgtgtcgtga 1020 
gatgttgggt taagtcccgc aacgagcgca acccctactc ctagttgcca gcggctcggc 1080 
cgggaactct agggggaccg ccggtgataa accggaggaa ggtggggatg acgtcaagtc 114 0 
ctcatggcct ttatgtccag ggctacacac gtgctacaac ggacggtaca aagggctgcg 1200 
aaggcgcgag ccggagccaa tcccaaaaag ccgttctcca gtgcggattg cagtctgcaa 1260 
ctcgactgca tgaaggtgga atcgctagta atcgcggat 1299 



<210> 91 
<211> 1296 
<212> ADN 

<213> Organime Inconnu 
<220> 

<223> Origine de la sequence :Organisme du sol 
<400> 91 

atgtctggta gcaataccag atgatggcaa gtggcggacg ggtgagtaat acgtagggat 60 
ctgcccagaa gagggggaca acccggggaa actcgggcta ataccgcata ctattctgag 12 0 
gaagaaagct tggcgcaagc caggcgcttt tggaggaacc tacgtccgat tagctagttg 180 
gtgaggtaaa ggctcaccaa ggcagagatc ggtagctggt ctgagaggat gaccagccac 240 
actgggactg agacacggcc cagactccta cgggaggcag cagtggggaa tattggacaa 3 00 
tgggggcaac cctgatccag cgatgccgcg tgtgtgaaga aggccttcgg gttgtaaagc 3 60 
actttagttg gggaagaagt aatgtttttt aatagagagc attgttgacg gtacccaaag 420 
aataagcacc ggctaactct gtgccagcag ccgcggtaat acagagggtg caagcgttaa 480 
tcggagttac tgggcgtaaa gggcgcgtag gcggtgttgc aagtgagatg tgaaatccct 54 0 
gggcttaacc taggaaccgc attttagact gcaatgctag agtacagtag agggtagtgg 600 
aatttccggt gtagcggtga aatgcgtaga gatcggaagg aacaccagtg gcgaaggcga 660 
ctacctggac tgacactgac gctgaggcgc gagagcgtgg ggagcaaaca ggattagata 720 
ccctggtagt ccacgctgta aacgatgaga actagatgtt ggtgcgcgcg agcgcacaag 780 
tatcgaagct aacgcgataa gttctccgcc tggggagtac ggccgcaagg ttaaaactca 840 
aaggaattga cgggggcccg cacaagcggt ggagcatgtg gtttaattcg atgcaacgcg 900 
aggaacctta cctacccttg acatccacag aatttgatag agatatcgaa gtgccgaaag 960 
gaactgtgag acaggtgctg catggctgtc gtcagctcgt gttgtgagat gttgggttaa 1020 
gtcccgtaac gagcgcaacc cttatcctta gttgccaaca cgtaatggtg gggactctaa 1080 
ggagactgcc ggtgaagaac cggaggaagg tggggacgac gtcaagtcat catggccttt 1140 
atgggtaggg ctacacacgt gctacaatgg ggcgtacaga gggttgccaa cctgcgaagg 1200 
ggagccaatc ccggaaagcg cctcgtagtc cagattgaag tctgcaactc gacttcatga 1260 
agtcggaatc gctagtaatc gcgaatcaga acgtcc ™ 1296 
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<210> 92 
<211> 1250 
<212> ADN 

<213> Organime Inconnu 
<220> 

<223> Origine de la sequence :Organisme du sol 
<400> 92 

gtctggtagc aataccagat gatggcaagt ggcggacggg tgagtaatac gtagggatct 60 
gcccagaaga gggggacaac ccggggaaac tcgggctaat accgcatact attctgagga 120 
aaaaagcttg gcgcaagcca ggcgcttttg gaggaaccta cgtccgatta gctagttggt 180 
gaggtaaagg ctcaccaagg cagagatcgg tagctggtct gagaggatga ccagccacac 24 0 
tgggactgag acacggccca gactcctacg ggaggcagca gtggggaata ttggacaatg 300 
ggggcaaccc tgatccagcg atgccgcgtg tgtgaagaag gccttcgggt tgtaaagcac 360 
tttagttggg gaagaagtaa tgttttttaa tagagagcat tgttgacggt acccaaagaa 420 
taagcaccgg ctaactctgt gccagcagcc gcggtaatac agagggtgca agcgttaatc 480 
ggagttactg ggcgtaaagg gcgcgtaggc ggtgttgcaa gtgagatgtg aaatccctgg 540 
gcttaaccta ggaaccgcat tttagactgc aatgctagag tacagtagag ggtagtggaa 60 0 
tttccggtgt agcggtgaaa tgcgtagaga tcggaaggaa caccagtggc gaaggcgact 6 60 
acctggactg acactgacgc tgaggcgcga gagcgtgggg agcaaacagg attagatacc 72 0 
ctggtagtcc acgctgtaaa cgatgagaac tagatgttgg tgcgcgcgag cgcacaagta 780 
tcgaagctaa cgcgataagt tctccgcctg gggagtacgg ccgcaaggtt aaaactcaaa 84 0 
ggaattgacg ggggcccgca caagcggtgg agcatgtggt ttaattcgat gcaacgcgaa 900 
gaaccttacc tacccttgac atccacagaa tttgatagag atatcgaagt gccgaaagga 960 
actgtgagac aggtgctgca tggctgtcgt cagctcgtgt tgtgagatgt tgggttaagt 1020 
cccgtaacgg gcgcaaccct tatccttagt tgccaacacg taatggtggg gactctaagg 1080 
agactgccgg tgaagaaccg gaggaaggtg gggacgacgt caagtcatca tggcctttat 114 0 
gggtagggct acacacgtgc tacaatgggg cgtacagagg gttgccaacc tgcgaagggg 1200 
agccaatccc ggaaagcgcc tcgtagtcca gattgaagtc tgcaactcga 1250 



<210> 93 
<211> 1545 
<212> ADN 

<213> Organime Inconnu 
<220> 

<223> Origine de la sequence :Organisme du sol 
<400> 93 

ccaggaaaca gctatgacca tgattacgcc aagcttggta ccgagctcgg atccactagt 60 
aacggccgcc agtgtgctgg aattcgccct tcaggcctaa cacatgcaag tcgaacggca 120 
gcacagggga gcttgctccc tgggtggcga gtggcggacg ggtgaggaat acatcggaat 180 
ctgcccagtc gtgggggata acctcgggaa accgggacta ataccgcata cgaccttagg 240 
gtgaaagcgg aggaccgcaa ggcttcgcgc gattggatga gccgatgtcg gattagcttg 300 
ttggcggggt aacggcccac caaggcgacg atccgtagct ggtctgagag gatgatcagc 360 
cacactggaa ctgagacacg gtccagactc ctacgggagg cagcagtggg gaatattgga 420 
caatgggcgc aagcctgatc cagccatgcc gcgtgagtga agaaggcctt cgggttgtaa 480 
agctcttttg tccggaaaga aaagctttcg gttaataccc ggaagtcctg acggtaccgg 540 
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aagaataagc accggctaac ttcgtgccag cagccgcggt aatacgaagg gtgcaagcgt 600 

tactcggaat tactgggcgt aaagcgtgcg taggtggttt gttaagtctg atgtgaaagc 660 

cctgggctca acctgggaat tgcactggat actggcaggc tagagtgcgg tagaggatgg 720 

cggaattccc ggtgtagcag tgaaatgcgt agagatcggg aggaacatct gtggcgaagg 780 

cggccatctg gaccagcact gacactgagg cacgaaagcg tggggagcaa acaggattag 840 

ataccctggt agtccacgcc ctaaacgatg cgaactggat gttgggagca actaggctct 900 

cagtatcgaa gctaacgcgt taagttcgcc gcctggggag tacggtcgca agactgaaac 960 

tcaaaggaat tgacgggggc ccgcacaagc ggtggagtat gtggtttaat tcgatgcaac 1020 

gcgaagaacc ttacctggcc ttgacatcca cggaacttac cagagatggt ttggtgcctt 1080 

cggnaaccgt gagacaggtg ctgcatggct gtcgtcagct cgtgtcgtga gatgttgggt 1140 

taagtcccgc aacgagcgca acccttgtcc ttagttgcca gcacgtaatg gtgggaactc 1200 

taaggagact gccggtgaca aaccggagga aggtggggat gacgtcaagt catcatggcc 1260 

cttacggcca gggctacaca cgtactacaa tggtcggtac agagggttgc aaagccgcga 1320 

ggtagagcca atcccagaaa accgatccca gtccggatcg aagtctgcaa ctcgacttcg 1380 

tgaagtcgga atcgctagta atcgcggatc agaatgccgc ggtgaatacg ttcccgggcc 1440 

ttgtacacac cgcccaaggg cgaattctgc agatatccat cacactggcg gccgctcgag 1500 

catgcatcta gagggcccaa ttcgccctat agtgagtcgt attac 1545 



<210> 94 
<211> 1549 
<212> ADN 

<213> Organime Inconnu 
<220> 

<223> Origine de la sequence :Orgariisme du sol 
<400> 94 

ttttaaaccg acggccagtg aattgtaata cgactcacta tagggcgaat tgggccctct 60 

agatgcatgc tcgagcggcc gccagtgtga tggatatctg cagaattcgc ccttcaggcc 120 

taacacatgc aagtcgagcg gcagcgcggg gcaacctggc ggcgagcggc ggacgggtga 180 

ggaatgcatc ggaatctacc ctgtcgtggg ggataacgta gggaaactta cgctaatacc 240 

gcatacgacc gagaggtgaa agtgggggac cgcaaggcct cacgcgatag gatgagccga 300 

tgccggatta gctagttggt gaggtaaagg ctcaccaagg cgacgatccg tagctggtct 3 60 

gagaggatga tcagccacat tgggactgag acacggccca aactcctacg ggaggcagca 420 

gtggggaata ttggacaatg ggcgcaagcc tgatccagcc atgccgcgtg tgtgaagaag 480 

gccttcgggt tgtaaagcac ttttgttcgg gaagaaatcg tgcgggttaa tacccagtac 540 

ggatgacggt accgaaagaa taagcaccgg ctaacttcgt gccagcagcc gcggtaatac 600 

gaagggtgca agcgttactc ggaatcactg ggcgtaaagc gtgcgtaggc ggttggttaa 660 

gtctgctgtg aaagccctgg gctcaacctg ggaactgcag tggatactgg ccagctagag 720 

tgtgatagag gatggtggaa ttcccggtgt agcggtgaaa tgcgtagaga tcgggaggaa 780 

caccagtggc gaaggcggcc atctggatca acactgacgc tgaggcacga aagcgtgggg 840 

agcaaacagg attagatacc ctggtagtcc acgccctaaa cgatgcgaac tggacgttgg 900 

gagcaacttg gctctcagtg tcgaagctaa cgcgctaagt tcgccgcctg gggagtacgg 960 

tcgcaagact gaaactcaaa ggaattgacg ggggcccgca caagcggtgg agtatgtggt 1020 

ttaattcgat gcaacgcgaa gaaccttacc tggccttgac atccacggaa cttaccagag 1080 

atggtttggt gccttcggaa ccgtgagaca ggtgctgcat ggctgtcgtc agctcgtgtc 1140 

gtgagatgtt gggttaagtc ccgcaacgag cgcaaccctt gtccttagtt gccagcacgt 1200 

aat 99t999 a actctaagga gactgccggt gacaaaccgg aggaaggtgg ggatgacgtc 1260 

aagtcatcat ggcccttacg gccagggcta cacacgtact acaatggtcg gtacaagagg 132 0 
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gttgcaaagc ccgcgaggta gagccaatcc 
gtctgcaact cgacttcgtg aagtcggaat 
tgaatacgtt cccgggcctt gtacacaccg 
cgttactagt ggatccgagc tcggtaccaa 



cagaaaaccc gatcccagtc ccggatcgaa 1380 
cgctagtaat cgcggatcag aatgccgcgg 1440 
cccaagggcg aattccagca cactggcggc 1500 
gcttggcgta atcatggtc 1549 



<210> 95 
<211> 1276 
<212> ADN 

<213> Organime Inconnu 
<220> 

<223> Origine de la sequence :Organisme du sol 
<400> 95 

ctggcggcga gcggcggacg ggtgaggaat acatcggaat ctacccagtc gtgggggata 60 
acgtagggaa acttacgcta ataccgcata cgacctgagg gtgaaagcag gggatcgcaa 120 
gaccttgcgc gattggatga gccgatgtcc gattagctag ttggtgaggt aaaggctcac 180 
caaggcgacg atcggtagct ggtctgagag ggtgatcagc cacactggaa ctgagacacg 24 0 
gtccagactc ctacgggagg cagcagtggg gaatattgga caatgggcgc aagcctgatc 300 
cagccatgcc gcgtgtgtga agaaggcctt cgggttgtaa agcacttttg ttcgggaaga 360 
aatcttccga gttaatacct cgggaggatg acggtaccgg aagaataagc accggctaac 420 
ttcgtgccag cagccgcggt aatacgaagg gtgcaagcgt tactcggaat tactgggcgt 480 
aaagcgtgcg taggtggttc gttaagtctg ccgtgaaagc cccgggctca acctgggaat 540 
tgcggtggat actggcggac tagagtgcgg tagagggtgg tggaattccc ggtgtagcag 600 
tgaaatgcgt agagatcggg aggaacatct gtggcgaagc ggccacctgg accagcactg 660 
acactgaggc acgaaagcgt ggggagcaaa caggattaga taccctggta gtccacgccc 72 0 
taaacgatgc gaactggacg ttgggagcaa ctaggctctc agtgtcgaag ctaacgcgtt 780 
aagttcgccg cctggggagt acggtcgcaa gactgaaact caaaggaatt gacgggggcc 84 0 
cgcacaagcg gtggagtgtg tggtttaatt cgatgcaacg cgaagaacct tacctggcct 900 
tgacatccac ggaatccttt agagatagag gagtgccttc gggaaccgtg agacaggtgc 960 
tgcatggctg tcgtcagctc gtgtcgtgag atgttgggtt aagtcccgca acgagcgcaa 1020 
cccttgtcct tagttgccag cgcgtaatgg cgggaactct aaggagactg ccggtgacaa 1080 
accggaggaa ggtggggatg acgtcaagtc atcatggccc ttacggccag ggctacacac 1140 
gtactacaat ggtggggaca gagggtcgcg aagccgcgag gtggagccaa tcccagaaac 1200 
cccatcctag tccggatcgg agtctgcaac tcgactccgt gaagtcggaa tcgctagtaa 1260 
tcgcggtcag catgcc 1276 



<210> 96 
<211> 1306 
<212> ADN 

<213> Organime Inconnu 
<220> 

<223> Origine de la sequence :Organisme du sol 
<400> 96 

cagggatcag tagagtggca aacgggtgag taacgcgtgg gcgacctacc ttcgagtggg 6 0 
ggataacctt ccgaaaggag ggctaatacc gcatgacatc ccgtgtttgg atacacggac 120 
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atcaaagccg gggatcgcaa gacctggcgc ttggagaggg gcccgcgtcc gattagctag 180 
ttggtgaggt cacggctcac caaggctccg atcggtatcc ggcctgagag ggcggacgga 240 
cacactggga ctgagacacg gcccagactc ctacgggagg cagcagtggg gaattgttcg 300 
caatgggcgc aagcctgacg acgcaacgcc gcgtggagga tgaagacctt cgggtcgtaa 360 
actcctttcg accgagatga agacccgccg gcctaatacg ccggcggatt gacagtatcg 420 
agggaagaag ccccggctaa ctccgtgcca gcagccgcgg taatacgggg ggggcaagcg 480 
ttgttcggaa ttactgggcg taaagggttc gtaggtggct cgctaagtca gacgtgaaat 54 0 
ccctcagctc aactggggaa ctgcgtctga gactggcaag cttgagtgca ggagaggaac 600 
gcggaattcc aggtgtagcg gtgaaatgcg tagatatctg gaggaacacc ggtggcgaag 660 
gcggcgttct ggactgeaac tgacactgag gaacgaaagc taggggagca aacgggatta 72 0 
gataccccgg tagtcctagc cctaaacgat gaatgcttgg tgtggcgggt atcgatccct 780 
gccgtgccgc agttaacgcg ataagcattc cgcctgggga gtacggtcgc aaggctgaaa 84 0 
ctcaaaggaa ttgacggggg cccgcacaag cggtggagca tgtggttcaa ttcgacgcaa 900 
cgcgaagaac cttacctagg ctcgaagtgc agatgaccat cggtgaaagc cgactttcgc 960 
aagaacatct gtagaggtgc tgcatggctg tcgtcagctc gtgtcgtgag atgttgggtt 1020 
aagtcccgca acgagcgcaa cccttgtttc ctgttgccat caggttaagc tgggcactct 1080 
ggagagactg ccggtgacaa accggaggaa ggtggggatg acgtcaagtc agcatggcct 1140 
ttatgtctag ggctacacac gtgctacaat ggccggtaca aagcgctgca aacccgcgag 1200 
ggtgagccaa tcgcagaaag ccggtctcag ttcggatagc aggctgcaac tcgcctgctt 1260 
gaagttggaa tcgctagtaa tcgcggatca gcatgccgcg gtgaat 13 06 



<210> 97 
<211> 1300 
<212> ADN 

<213> Organime Inconnu 
<220> 

<223> Origine de la sequence rOrganisme du sol 
<400> 97 

cccgcagggt gagtagatgg caaacgggtg agtaacacgt gggtgacctg cctcagagtg 60 
ggggataacg acccgaaagg gtcgctaata ccgcataaca tcctgtcttt ggatagacgg 120 
agatcaaagc cggggatcgc aagacctggc gcttagagag gggcccgcgg ccgattagct 180 
agttggtgag gtaacggctc accaaggcaa cgatcggtat ccggcctgag agggcggacg 240 
gacacactgg gactgagaca cggcccagac tcctacggga ggcagcagtg gggaattgtt 300 
cgcaatgggc gcaagcctga cgacgcaacg ccgcgtggag gatgaagatc ttcgggtcgt 360 
aaactccttt cgatcgggaa gaacgcctct ggtgtgaaca ccatcagagg gtgacggtac 420 
cgagagaaga agccccggct aactctgtgc cagcagccgc ggtaatacag ggggggcaag 4 80 
cgttgttcgg aattactggg cgtaaagggc tcgtaggcgg ccggctaagt ccgacgtgaa 540 
atccccaggc ttaacctggg aactgcgtcg gatactggcg ggcttgaatc cgggagaggg 600 
atgcggaatt ccaggtgtag cggtgaaatg cgtagatatc tggaggaaca ccggtggcga 660 
aggcggcatc ctggaccggt attgacgctg aatagcgaaa gccaggggag caaacgggat 72 0 
tagatacccc ggtagtcctg gccctaaacg atgaatgttt ggtgtggcgg gtatcgatcc 780 
ctgccgtgcc gaagctaacg cattaaacat tccgcctggg gagtacggtc gcaaggctga 840 
aactcaaagg aattgacggg ggcccgcaca agcggtggag catgtggttc aattcgacgc 900 
aacgcgaaga accttaccca ggctcgaacg gcattggaca tccggcgaaa gccggctccc 960 
gcaagggccg atgtcgaggt gctgcatggc tgtcgtcagc tcgtgtcgtg agatgttggg 1020 
ttaagtcccg caacgagcgc aacccttgtc cgctgttgcc atcacgttat ggtgggcact 1080 
ctgcggagac tgccggtgat aaaccggagg aaggtgggga tgacgtcaag tcagcatggc 1140 
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ctttatgtct ggggctacac acgtgctaca atggccggta caaaccgttg cgatctcgca 1200 
agagtgagct aatcggagaa agccggtctc agttcggatt gcaggctgca actcgcctgc 1260 
atgaagttgg aatcgctagt aatcgcggat cagcacgccg 1300 



<210> 98 
<211> 1233 
<212> ADN 

<213> Organime Inconnu 
<220> 

<223> Origine de la sequence :Organisme du sol 
<400> 98 

acggagcggc agacgggaga gtaacacgtg ggaacgtgcc ctttggttcg gaacaacaca 60 

gggaaacttg tgctaatacc ggataagccc ttacggggaa agatttatcg ccaaaggatc 120 

ggcccgcgtc tgattagcta gttggtgagg taacggctca ccaaggcgac gatcagtagc 180 

tggtctgaga ggatgatcag cctcactggg actgagacac ggcccagact cctacgggag 24 0 

gcagcagtgg ggaatattgg acaatgggcg caagcctgat ccagccatgc cgcgtggatg 300 

atgaaggccc tagggttgta aagtcctttc ggcggggaag ataatgacgg tacccgcaga 360 

agaagccccg gctaacttcg tgccagcagc cgcggtaata cgaagggggc tagcgttgct 42 0 

cggaatcact gggcngtaaa gcgcacgtag gcggcttttt aagtcagggg tgaaatcctg 480 

gagctcaact ccagaactgc ctttgatact gagaagcttg agtccgggag aggtgagtgg 540 

aactgcgagt gtagaggtga aattcgtaga tattcgcaag aacaccagtg gcgaaggcgg 600 

ctcactggcc cggtactgac gctgaggtgc gaaagcgtgg ggagcaaaca ggattagata 660 

ccctggtagt ccacgctgta aacgatggat gctagccgtt gtcgggttta ctcgtcagtg 720 

gcgcagctaa cgcattaagc atcccgcctg gggagtacgg tcgcaagatt aaaactcaaa 780 

ggaattgacg ggggcccgca caagcggtgg agcatgtggt tcaattcgaa gcaacgcgca 84 0 

gaaccttacc agcccttgac atgtcccgta tgagtaccag agatggaact cttcagttcg 900 

gctggcggga acacaggtgc tgcatggctg tcgtcagctc gtgtcgtgag atgttgggtt 960 

aagtcccgca acgagcgcaa ccctcgccct tagttgccat catttagttg ggcactctaa 1020 

ggggactgcc ggtgataagc cgcgaggaag gtggggatga cgtcaagtcc tcatggccct 1080 

tacgggctgg gctacacacg tgctacaatg gcggtgacag tgggatgcag aggggtaacc 114 0 

ccgagcaaat ctcaaaaagc cgtctcagtt cggattgtgc tctgcaactc gagcacatga 1200 
agttggaatc gctagtaatc gcagatcagc acg 1233 



<210> 99 
<211> 1304 
<212> ADN 

<213> Organime Inconnu 
<220> 

<223> Origine de la sequence :Organisme du sol 
<400> 99 

cgaaatcccg cagggatcag tagagtggca aacgggtgag taacacgtgg gtgacctgcc 60 
ttcgagtggg ggataacgtc ccgaaaggga cgctaatacc gcatgacatc ctgctcttga 120 
acgagtggag atcaaagctg gggatcgcaa gacctagcgc tcaaagaggg gcccgcgcct 18 0 
gattagctag ttggtggggt aacggctcac caaggcgacg atcagtatcc ggcctgagag 240 
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ggcggacgga 
gaattgttcg 
cgggtcgtaa 
gacggtaccg 
ggggcaagcg 
gacgtgaaat 
ggagagggat 
ggtggcgaag 
aacgggatta 
atcgatccct 
aaggctgaaa 
ttcgacgcaa 
gagcttccgc 
atgttgggtt 
tgggcactct 
agcatggcct 
aaaccgtaag 
tcgccggcgt 



cacactggga 
caatgggcgc 
actcctttcg 
agagaagaag 
ttgttcggaa 
ccctcggctt 
gcggaattcc 
gcggcatcct 
gataccccgg 
gccgtgccga 
ctcaaaggaa 
cgcgaagaac 
aaggacactc 
aagtcccgca 
gcaaagactg 
ttatgtctgg 
gtcgagctaa 
gaagttggaa 



ctgagacacg 
aagcctgacg 
atcgagacga 
ccccggctaa 
ttactgggcg 
aaccggggaa 
aggtgtagcg 
ggaccaattc 
tagtcctggc 
agctaacgca 
ttgacggggg 
cttacccagg 
gtagaggtgc 
acgagcgcaa 
ccggtgataa 
ggctacacac 
tcggagaaag 
tcgctagtaa 



gcccagactc 
acgcaacgcc 
acggcctccg 
ctccgtgcca 
taaagggctc 
ctgcgtctga 
gtgaaatgcg 
tgacgctgag 
cctaaacgat 
ttaagcattc 
cccgcacaag 
cttgaacagc 
tgcatggctg 
cccttgtttg 
accggaggaa 
gtgctacaat 
ccggtctcag 
tcgcggatca 



ctacgggagg 
gcgtggagga 
ggtgaacaat 
gcagccgcgg 
gtaggcggcc 
tactggatgg 
tagatatctg 
gagcgaaagc 
gaatgcttgg 
cgcctgggga 
cggtggagca 
gagtgaccac 
tcgtcagctc 
ctgttgccat 

ggtggggatg 

ggccggtaca 
ttcggatcgt 
gcac 



cagcagtggg 3 00 
tgaagatctt 360 
ccggaggagt 42 0 
taatacgggg 480 
aactaagtca 540 
ctagaggttg 600 
gaggaacacc 660 
caggggagca 720 
tgtggcgggt 78 0 
gtacggtcgc 840 
tgtggttcaa 900 
tcctgaaaag 960 
gtgtcgtgag 1020 
cacgttatgg 1080 
acgtcaagtc 1140 
aaccgtcgca 1200 
cggctgcaac 1260 
1304 



<210> 100 
<211> 1197 
<212> ADN 

<213> Organime Inconnu 
<220> 

<223> Origine de la sequence :Organisme du sol 
<400> 100 

tctagtggcg cacgggtgcg taacgcgtgg gaatctgccc ttgggttcgg gataacagtt 60 

ggaaacgact gctaataccg gatgatgtct tcggaccaaa gatttatcgc ccagggatga 120 

gcccgcgtcg gattagctag ttggtgaggt aaaggctcac caaggcgacg atccgtagct 180 

ggtctgagag gatgatcagc cacactggga ctgagacacg gcccagactc ctacgggagg 24 0 

cagcagtggg gaatattgga caatgggcga aagcctgatc cagcaatgcc gcgtgagtga 300 

tgaaggcctt agggttgtaa agctcttttg cccgggatga taatgacagt accgggagaa 360 

taagccccgg ctaactccgt gccagcagcc gcggtaatac ggagggggct agcgttgttc 420 

ggaattactg ggcgtaaagc gcacgtaggc ggctttgtaa gttagaggtg aaagcccgga 480 

gctcaactcc ggaactgcct ttaagactgc atcgcttgaa cgtcggagag gtaagtggaa 540 

ttccgagtgt agaggtgaaa ttcgtagata ttcggaagaa caccagtggc gaaggcgact 600 

tactggacga ctgttgacgc tgaggtgcga aagcgtgggg agcaaacagg attagatacc 660 

ctggtagtcc acgccgtaaa cgatgatgac tagctgtcgg ggctcatgga gtttcggtgg 72 0 

cgcagctaac gcgttaagtc atccgcctgg ggagtacggc cgcaaggtta aaactcaaag 780 

aaattgacgg gggcctgcac aagcggtgga gcatgtggtt taattcgaag caacgcgcag 84 0 

aaccttacca gcgtttgaca tggtaggacg gtttccagag atggattcct tcccttacgg 900 

gacctacaca caggtgctgc atggctgtcg tcagctcgtg tcgtgagatg ttgggttaag 960 

tcccgcaacg agcgcaaccc tcgtctttag ttgctaccat ttagttgggc actctaaaga 1020 

aactgccggt gataagccgg aggaaggtgg ggatgacgtc aagtcctcat ggcccttacg 1080 

cgctgggcta cacacgtgct acaatggcgg tgacagtggg cagcaaactc gcgagagtga 1140 

gcaaatcccc aaaaaccgtc tcagttcgga ttgttctctg caactcgaga gcatgaa 1197 
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<210> 101 
<211> 1352 
<212> ADN 

<213> Organime Inconnu 
<220> 

<223> Origine de la sequence :Organisme du sol 
<400> 101 

cgacggccag tgaattgtaa tacgactcac tatagggcga attgggccct ctagatgcat 60 

gctcgagcgg ccgccagtgt gatggatatc tgcagaattc gcccttcagg cctaacacat 120 

gcaagtcgca cgagaaaggg cttcggcccc ggtacagtgg cgcacgggtg agtaacacgt 180 

aggcaatctc ccctcgagtg gtggataacc ttccgaaagg agggctaata cagcatgaga 24 0 

ccacgagctc gcagagcttg tggccaaagc ggacctcttc ttgaaagttc gcgcttgagg 300 

atgagcctgc ggcccatcag ctagttggta gggtaatggc ctaccaaggc taagacgggt 3 60 

agctggtctg agaggacgga cagccacact ggaactgaga cacggtccag actcctacgg 420 

gaggcagcag tggggaatct tgcgcaatgg acgaaagtct gacgcagcga cgccgcgtga 4 80 

gcgatgaagg ccttcgggtt gtaaagctct gtggggagag acgaataagg tgcagctaat 54 0 

acctgcatcg atgacggtat ctccttagca agcaccggct aactctgtgc cagcagccgc 600 

ggtaagacag agggtgcaaa cgttgttcgg aattactggg cgtaaagcgc gtgtaggcgg 660 

ctgtgtaagt cgggcgtgaa atcccatggc tcaaccatgg aagtgcaccc gaaactgcgt 72 0 

agctagagtc ctggagagga aggtggaatg cttggtgtag aggtgaaatt cgtagatatc 78 0 

aagcggaaca ccggtggcga agcggccttc tggacagtga ctgacgctga gacgcgaaag 84 0 

cgtggggagc aaacaggatt agataccctg gtagtccacg ccgtaaacga tgaatgctag 900 

acgctggggt gcatgcactt cggtgtcgcc gctaacgcat taagcattcc gcctggggag 960 

tacggccgca aggttaaaac tcaaaggaat tgacgggggc ccgcacaagc ggtggagcat 102 0 

gtggtttaat tcgaagcaac gcgcaaacct taccaaccct tgacatgtcc attgccggtc 1080 

cgagagattg gaccttcagt tcggctggat ggaacacagg tgctgcatgg ctgtcgtcag 1140 

ctcgtgtcgt gagatgttgg gttaagtccc gcaacgagcg caacccctac cgccagttgc 1200 

catcattcag ttgggcactc tggtggaact gccggtgaca agccggagga agcggggatg 12 6 0 

acgtcaagtc ctcatggccc ttatgggttg ggctacacac gtgctacaat ggcggtgaca 1320 

gtgggacgcg aagtccaaga tggacaaatc cc 13 52 



<210> 102 
<211> 1361 
<212> ADN 

<213> Organime Inconnu 
<220> 

<223> Origine de la sequence rOrganisme du sol 
<400> 102 

aacagctatg accatgatta cgccaagctt ggtaccgagc tcggatccac tagtaacggc 60 
cgccagtgtg ctggaattcg cccttcaggc ctaacacatg caagtcgaac ggatccttcg 120 
ggattagtgg cggacgggtg agtaacacgt gggaacgtgc cctttggttc ggaacaactc 18 0 
agggaaactt gagctaatac cggataagcc tttcgaggga aagatttatc gccattggag 24 0 
cggcccgcgt aggattagct agttggtgag gtaaaagctc accaaggcga cgatccttag 300 
ctggtctgag aggatgatca gccacattgg gactgagaca cggcccaaac tcctacggga 3 60 



: <WO 0140497A2_I_> 



WO 01/40497 



PCT/FR00/03311 



60 



ggcagcagtg gggaatcttg cgcaatgggc gcaagcctga tccagccatg ccgcgtgagt 420 
gatgaaggcc ttagggttgt aaagctcttt caccggagaa gataatgacg gtatccggag 480 
aagaagcccc ggctaacttc gtgccagcag ccgcggtaat acgaaggggg ctagcgttgt 54 0 
tcggaattac tgggcgtaaa gcgcacgtag gcggatattt aagtcagggg tgaaatccca 600 
gagctcaact ctggaactgc ctttgatact gggtatcttg agtatggaag aggtaagtgg 660 
aattccgagt gtagaggtga aattcgtaga tattcggagg aacaccagtg gcgaaggcgg 72 0 
cttactggtc cattactgac gctgaggtgc gaaagcgtgg ggagcaaaca ggattagata 780 
ccctggtagt ccacgccgta aacgatgaat gttagccgtc gggcagtata ctgttcggtg 840 
gcgcagctaa cgcattaaac attccgcctg gggagtacgg tcgcaagatt aaaactcaaa 900 
ggaattgacg ggggcccgca caagcggtgg agcatgtggt ttaattcgaa gcaacgcgca 96 0 
gaaccttacc agctcttgac attcggggtt tgggcagtgg agacattgtc cttcagttag 1020 
gctggcccca gaacaggtgc tgcatggctg tcgtcagctc gtgtcgtgag atgttgggtt 1080 
aagtcccgca acgagcgcaa ccctcgccct tagttgccag catttagttg ggcactctaa 1140 
ggggactgcc ggtgataagc cgagaggaag gtggggatga cgtcaagtcc tcatggccct 1200 
tacgggctgg gctacacacg tgctacaatg gtggtgacag tgggcagcga gacagcgatg 1260 
tcgagctaat ctccaaaagc catctcagtt cggattgcat ctgcaactcg agtgcatgaa 1320 
gttggaatcg ctagtaatcg cagatcagca tgctgcggtg a 1361 



<210> 103 
<211> 1300 
<212> ADN 

< 2 1 3 > Organime Inconnu 
<220> 

<223> Origine de la sequence :Organisme du sol 
<400> 103 

catgtttagt agcaatacta aatgatgacg agcggcggac gggtgaggaa cacgtaggaa 60 
cctgcccaag agagggggac aaccaaggga aactttggct aataccgcat aatctctacg 120 
gagaaaagtt gcccgtaagg gtggcgcttt tggaggggcc tgcgtccgat tagttagttg 180 
gtgaggtaat agctcaccaa gactgtgatc ggtaactggt ctgagaggac gaccagtcac 24 0 
actgggactg agacacggcc cagactccta cgggaggcag cagtggggaa tcttggacaa 3 00 
tgggggcaac cctgatccag cgatgccgcg tgggtgaaga aggccttcgg gttgtaaagc 360 
cctttaggcg gggaagaagg atatgggatg aataagcctg tattttgacg gtacccgcag 420 
aataagcacc ggcaaactct gtgccagcag ccgcggtaat acagagggtg cgagcgttaa 4 80 
tcggatttac tgggcgtaaa gggcgcgtag gcggttgtgt gagtgtgatg tgaaagcccc 540 
gggctcaacc tgggaagtgc atcgcaaacg acacaactgg agtatatgag agggtggcgg 600 
aatttccggt gtagcggtga aatgcgtaga gatcggaagg aacgtcgatg gcgaaggcag 660 
ccacctggca taatactgac gctgaggcgc gaaagcgtgg ggagcgaaca ggattagata 72 0 
ccctggtagt ccacgccgta aacgatgaga actagatgtt ggagggggaa cccttcagta 780 
tcgaagctaa cgcgataagt tctccgcctg ggaagtacag tcgcaagact gaaactcaaa 840 
agaattgacg ggggcccgca caagcggtgg agcatgtggt ttaattcgat gcaacgcgaa 900 
gaaccttacc tacccttgac atcctgcgaa tcttgccgag aggtgagagt gccgcaagga 960 
gcgcagagac aggtgctgca tggctgtcgt cagctcgtgt tgtgagatgt tgggttaagt 1020 
cccgtaacga gcgcaaccct tgtccttagt tgccatcatt tagttgggga ctctaaggag 108 0 
accgccggtg atgaaccgga ggaaggcggg gacgacgtca agtcatcatg gcctttatgg 114 0 
gtagggctac acacgtgcta caatggggcg tacagagggt cgccaacccg cgagggggag 1200 
ccaatctctt aaagcgtctc gtagtccgga ttggagtctg caactcgact ccatgaagtc 1260 
ggaatcgcta gtaatcgcgg atcagcagtg ccgcggtgaa 1300 
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<210> 104 
<211> 1250 
<212> ADN 

<213> Organime Inconnu 
<220> 

<223> Origine de la sequence :Organisme du sol 
<400> 104 

tgtagcaata catcagtggc agacgggtga gtaacacgtg ggaaccttcc tcgttgtacg 60 

ggacaactca gggaaacttg agctaatacc gtatacgtcc gagaggagaa agatttatcg 120 

caatgagacg ggcccgcgtc ggattagcta gttggtaagg taacggctta ccaaggcgac 180 

gatccgtagc tgatctgaga ggatgatcag ccacactggg actgagacac ggcccagact 240 

cctacgggag gcagcagtgg ggaatcttgg acaatgggcg caagcctgat ccagccatgc 300 

cgcgtgagtg aagaaggcct tagggttgta aagctctttt gccagggacg ataatgacgg 3 60 

tacctgagaa taagccccgg caaacttcgt gccagcagcc gcggtaatac gaagggggct 420 

agcgttgttc ggatttactg ggcgtaaagc gcacgtaggc gggtcgttaa gtcaggggtg 480 

aaatcccgga gctcaactcc ggaactgcct ttgatactgg cgaccttgag gctggaagag 540 

gttagtggaa ttcccagtgt agaggtgaaa ttcgtagata ttgggaagaa caccagtggc 600 

gaaggcggct aactggtcca gatctgacgc tgaggtgcga aagcgtgggg agcaaacagg 660 

attagatacc ctggtagtcc acgccgtaaa ctatgggtgc tagctgtcag cgggcttgct 720 

cgttggtggc gcagctaacg cattaagcac cccgcctggg gagtacggtc gcaagattaa 780 

aacttaaagg aattgacggg ggcccgcaca agcggtggag catgtggttt aattcgaagc 840 

aacgcgcaga accttaccaa cccttgacat cccgatcgcg gacaccagag atggagtcct 900 

tcagttcggc tggatcggag acaggtgctg catggctgtc gtcagctcgt gtcgtgagat 960 

gttgggttaa gtcccgcaac gagcgcaacc ctcgccttta gttgccatca tttagttggg 1020 

cactctaaag ggactgccgg tgataagccg gaggaaggtg gggatgacgt caagtcctca 1080 

tggcccttac gggttgggct acacacgtgc tacaatggcg gtgacaatgg gcagctactt 1140 

cgcaaggaga agctaatccc aaaaagccgt ctcagttcag attgcactct gcaactcggg 1200 
tgcatgaagt tggaatcgct agtaatcgct aatcagcagg tagcggtgaa 1250 



<210> 105 
<211> 1302 
<212> ADN 

<213> Organime Inconnu 
<220> 

<223> Origine de la sequence :Organisme du sol 
<400> 105 

ggcttcggct ccccggtaga gtggcggacg ggtgagtaac acgtgggtaa tctgcctttg 60 
ggtggggaat aacccttcga aagaggggct aataccgcat aacgcagcgg caccgaatgg 12 0 
tgacagttgt taaagtgggg gatcgcaaga cctcacgcct gaagaggagc ccgcgcccga 180 
ttagctagtt ggtgcggtaa tggcgtacca aggcggcgat cggtagccgg cctgagaggg 24 0 
cggacggcca cactggcact gagagacggg ccagactcct acgggaggca gcagtgggga 30 0 
attttgggca atgggcgcaa gcctgaccca gcaacgccgc gtgaaggacg aaatccctct 360 
gggatgtaaa cttcgaaagt tggggaagaa atccgtgtga ggataatgca cacgggatga 42 0 
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cggtacccaa cgtaagcccc ggctaactac gtgccagcag ccgcggtaat acgtaggggg 480 

caagcgttgt tcggaattac tgggcgtaaa gggcgcgtag gcggtacgac aagtctggag 540 

tgaaagcccg gggctcaacc ccggaatgtc tttggaaact gtcgaacttg agtgcggaag 600 

aggcatctgg aattcccagt gtagcggtga aatgcgtaga tattgggaag aacacctgag 660 

gcgaaggcgg gatgctgggc cgacactgac gctgaggcgc gaaagccagg ggagcgaacg 720 

ggattagata ccccggtagt cctggcccta aacgatggat acttggtgtg tggggttctc 780 

gaagtccccg cgtgccggag ctaacgcggt aagtatcccg cctggggagt acggtcgcaa 84 0 

ggctgaaact caaaggaatt gacggggacc cgcacaagcg gtggagcatg tggttcaatt 900 

cgacgcaacg cgaagaacct tacctgggtt aaatcctacc tcgtcgcctc agagatgagg 960 

tttcccttcg ggggaggtag gacggtgctg catggctgtc gtcagctcgt gccgtgaggt 1020 

gttgggttaa gtcccgcaac gagcgcaacc cttaccacta gttgccagcg gttcggccgg 1080 

gcactctatt gggactgccg gtgacaaacc ggaggaaggt ggggatgacg tcaagtcatc 1140 

atggccttta tgtccagggc tacacacgtg ctacaatggc cggaacaaag cgcagcaaac 1200 

ccgcgagggg gagccaatcg caaaaatccg gtctcagttc ggattggagt ctgcaactcg 1260 
actccatgaa gttggaatcg ctagtaatcg cggatcagca tg 13 02 



<210> 106 
<211> 1281 
<212> ADN 

<213> Organime Inconnu 
<220> 

<223> Origine de la sequence :Organisme du sol 
<400> 106 

tgcttctctt gagagcggcg gacgggtgag taatgcctag gaatctgcct ggtagtgggg 60 
gataacgttc ggaaacggac gctaataccg catacgtcct acgggagaaa gcaggggacc 120 
ttcgggcctt gcgctatcag atgagcctag gtcggattag ctagttggtg aggtaatggc 180 
tcaccaaggc gacgatccgt aactggtctg agaggatgat cagtcacact ggaactgaga 240 
cacggtccag actcctacgg gaggcagcag tggggaatat tggacaatgg gcgaaagcct 3 00 
gatccagcca tgccgcgtgt gtgaagaagg tcttcggatt gtaaagcact ttaagttgga 360 
aggaagggca gtaaattaat actttgctgt tttgacgtta ccgacagaat aagcaccggc 420 
taactctgtg ccagcagccg cggtaataca gagggtgcaa gcgttaatcg gaattactgg 480 
gcgtaaagcg cgcgtaggtg gtttgttaag ttggatgtga aatccccggg ctcaacctgg 540 
gaactgcatt caaaactgac tgactagagt atggtagagg gtggtggaat ttcctgtgta 600 
gcggtgaaat gcgtagatat aggaaggaac accagtggcg aaggcgacca cctggactaa 660 
tactgacact gaggtgcgaa agcgtgggga gcaaacagga ttagataccc tggtagtcca 720 
cgccgtaaac gatgtcaact agccgttgga agccttgagc ttttagtggc gcagctaacg 780 
cattaagttg accgcctggg gagtacggcc gcaaggttaa aactcaaatg aattgagggg 840 
ggcccgcaca agcggtggag catgtggttt aattcgaagc aacgcgaaga accttaccag 900 
gccttgacat ccaatgaact ttctagagat agattggtgc cttcgggaac attgagacag 960 
gtgctgcatg gctgtcgtca gctcgtgtcg tgagatgttg ggttaagtcc cgtaacgagc 1020 
gcaacccttg tccttagtta ccagcacgac atggtgggca ctctaaggag actgccggtg 1080 
acaaaccgga ggaaggtggg gatgacgtca agtcatcatg gcccttacgg cctgggctac 114 0 
acacgtgcta caatggtcgg tacagagggt tgccaagccg cgaggtggag ctaatcccac 1200 
aaaaccgatc gtagtccgga tcgcagtctg caactcgact gcgtgaagtc ggaatcgcta 1260 
gtaatcgcga atcagaaatg t 1281 
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<210> 107 
<211> 43 
<212> ADN 

<213> Sequence artif icielle 
<220> 

<223> Description de la sequence artif icielle : amorce 
<400> 107 

cgctgcagat ttaaatatgc aacgcgtaag tcgatggcgt teg 

<210> 108 
<211> 51 
<212> ADN 

<213> Sequence artificielle 
<220> 

<223> Description de la sequence artif icielle : amorce 
<400> 108 

eggtcaaett aattaagata tctcgagaga tctattaata cgatacctgc 

<210> 109 
<211> 29 
<212> ADN 

<213> Sequence artificielle 
<220> 

<223> Description de la sequence artif icielle : amorce 
<400> 109 

aaaaagatat ctgacgtccc gaaggcgtg 

<210> 110 
<211> 32 
<212> ADN 

<213> Sequence artificielle 
<220> 

<223> Description de la sequence artif icielle : amorce 
<400> 110 

aaaaaagatc tggctaacta actaaaccga ga 

<210> 111 
<211> 36 
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<212> ADN 

<213> Sequence artificielle 
<220> 

<223> Description de la sequence artificielle : amorce 
<400> 111 

gtgccgttaa ttaagctccg cgaagtcgct cttctt 36 



<210> 112 
<211> 36 
<212> ADN 

<213> Sequence artificielle 
<220> 

<223> Description de la sequence artificielle : amorce 
<400> 112 

gtgccgttaa ttaaccgctg cataaccctg cttcgg 36 



<210> 113 
<211> 42717 
<212> ADN 

<213> Sequence artificielle 
<220> 

<223> Description de la sequence artificielle : cosmide 
a2 6gl brin non codant 



<400> 113 

aaaaaaaaaa 

gttcagaact 

tgtcgagatc 

gaccccacac 

ccgccgtaat 

gctgtatgcg 

cccccgcagc 

cgccccggta 

tgcccagccc 

cacccgacac 

ggaaccattc 

cgtggccttc 

gcaccctaag 

cgcaaggacc 

cgagcaaggc 

tcagtcgcgc 

cgccgtaatg 

ccccaagtgt 



aaaaaaaaaa 
ccccgcgaga 
gatgcaggtg 
cggtgcccgc 
cagccagatt 
tcccactccg 
cgacggatcg 
aggctgatcc 
tcgcgccacc 
cgttgccgtt 
ggattggcgc 
cgcatcacac 
atcgccggcg 
ggcgctgcct 
aggatgaagc 
cactgcctcg 
catcccctgc 
gggcaggctc 



aaaaaaaaaa 
atctctcggc 
caagcgaact 
gcgggcacca 
cgcggatgct 
aattcttgaa 
gtctcatcct 
ggtatctcgg 
gcggctgcga 
ggactctcgg 
tccagttcct 
agggtgacat 
ggtctgccga 
tcgccgccaa 
gtgtaaccgg 
ccgtcgcgcc 
gatgcgaagg 
accgtgggcg 



aaaaaaaaaa 
agagcgcctg 
cgggatgctc 
ccggcatctg 
gcgattcggc 
cgatgcgcaa 
cggtctcatc 
catcgcgacc 
tgccgccggc 
ccagcagctg 
gggcacgcag 
cgccctcgag 
aacagtgcaa 
gcgtcgcgcc 
actctgcttc 
gccacacttc 
ccgcatagaa 
cgaccttgtc 



aaaaaaaacc 
cacctcgact 
ggccgcgatg 
cagatgctcc 
gtcggacgct 
aatgtcttcg 
caggctcccg 
cgaaatcaca 
atcggcaatg 
cggctcccat 
gccttggacc 
ccgccccgtc 
ccgttcgatg 
cagcacctgc 
gcgaacggca 
cgcgatgccg 
gtcatcgccc 
cggcgccgca 



gggccctgac 60 
tcaccggcag 120 
gtacgtccca 180 
gcatgaacgc 240 
tgtttcgtca 300 
caggcggttc 3 60 
cagtgaatga 420 
accgtgtttg 480 
accagccatg 54 0 
tccatagcgt 60 0 
t cgagga t ga 660 
agccgcgcat 720 
gcgacaggca 780 
aaacaggcat 840 
tccggcacgc 900 
cggaaggtgt 960 
tcgatgcgat 1020 
gccatggtgc 1080 
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cgcgcgcgtg ctcggtccaa tcggaaccgc 
gtccctcgag tatgacctgc actcgcgagg 
caaaccggat ctcttccagg ctgcagccac 
ccatctccac ataagcggca ccgggaagca 
gaaacggcag cgcatccaga gagagcacgg 
caatctcgac cttgcgaccg agcagcggat 
tcgaggtcgc gaaccagaag cgctcgcgct 
tgtcgggaga cgaagcgagc gcgcgccagt 
cgagcaactc gagcagctca cgccgctccg 
gtccgtttat gccgagcgtc cgcagactat 
gactgatctc caggaactgc gtgaactcat 
aacggactgg ctgtcgcaga ttggctaccc 
tcaactgtcc ttcaaccgtg gagaagaacg 
cgagttcctg gcgcaattcg ttctcgagcg 
ccacctgaat cagccggcag aagacgccgc 
gagccacacg gtctcccgag aacaccgtgc 
cagtagtgag accgcgttca gcgagcacgg 
gagccatcgc tccccggccg cgaagtccga 
gggccgcgtc ctccagggtg agaatgcctg 
tgtgtccggc cacgccgtcc gggcgaattc 
tttgaacggc gaacagcgca ggctgcacgc 
cgtcggcgag caggtccgca agccgccatt 
gttcgatcgc cgatcggaag acaggctcgt 
actgtccgcc ctggccggaa aagatgaagg 
aaccggtggc gacgccgcga ttggtttcat 
actcgggcag ggatgaggcc acaaacgctg 
t99 c 99 c 99 a acacagcgcg gagagcggag 
cgagatcgcg cagagcctgc ggatggcgcg 
cttcggcatg gagttgatcc gggaccggca 
ccccgccgcc gcttcgcggg cggctgtccc 
tagcctccac attccctttg gcctctacac 
ctacattcgt cttcgcctct acattcgtct 
ggacgacgtg cgaattggtg ccactgattc 
ggccgttgga gggccatggc gaacatgcgg 
gtacgtgcgg gttgggcgcg ttgaaatgca 
cgagaatggt cttgatcagg ccggcgatac 
ttttcaccga cccgacgatc aacggagaat 
ccatcgcccg cagttcgatg ggatctccca 
aatcgacatc ggcgggggcc atgccggcgt 
gcgccggacc gttcggcgcc gtgaggccgt 
cgcgaatcag cgccagaata cgatcgccgt 
ccagcattcc gcatccctcg ccgcggccgt 
aacggccatc ggccgccatg gcccgcaggc 
gaatcaggtt cacgccgccg gccagcgcca 
acgccagatg aaccgccacg agtgaggaag 
cctgcaaccc cagcagatag gagatccgtc 
cggtataggc gtcaatgagc gccggatcgg 
tgatcccgat gaacactccg gtgtcgctgc 
gctccaaagc ttcccatgcc acctcgagca 
cctcgcgcgg cgtgattccg aagaagccgg 
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cttcggccag actggagatg cggaatgcgt 1140 
cgcccgcgga aggaacaacc agcatttgtt 1200 
ccgcgaacac ttccttggct gcggccagcg 1260 
ccacaagctc gttgagccgg tgatcggcga 1320 
actcccagac gtgtgtgtcc ggcgccagcg 1380 
gaccgccaac tgccggcaaa cttcgccgcg 1440 
gccagggata cgtcggcaga tccaggcgcg 1500 
ccggacgctg cccattcacg tagagcgcgg 1560 
gttcgtcgcg gcgcagtacg gggcgaacca 1620 
cctcgatcga cggcgtcagc acaggatgcg 1680 
caccagccat cgcctgcaac gactcccaga 1740 
agtacgacgc gtcgcacgcc tcgcccgtgc 1800 
gcacggcgga acgttttgca ataacgcggc 1860 
ggtccacctg cgagctgtgt gaagcgacat 1920 
gcctctcgaa gtcgtccttc aaatgctcga 1980 
tgcgtggtcc gttgctggcc gcgacagaaa 2040 
ccttcgcccg atcgagcggc agttcgacca 2100 
gcaacagccg gctgcggcga cagatgatgc 2160 
cgacatgggc cgccgccact tctcccatgc 2220 
cccaggattg cagcagttcg accagcgcga 2280 
gatcgatctg gctcagccat gctcccgact 2340 
ccacgaagct gcggaaggcg gcgtcgcaac 2400 
cggaatacag gcgatacgcc atgcgcgggt 2460 
cgagtttcgg acgaactccg ggatcggcga 2520 
tgcgccggaa ggcctcgagc aattgattga 2580 
cgcgatgttc gtagtgactg cgcgtcaggc 2640 
cgtgaaagcg cccatcgcga taggcgccgg 2700 
ccgaaagcgg taggaggtat tcgcggccgt 2760 
cttcctcgcg gctgggcggc cggcccgacc 2820 
cctcgaggag ggggacacta gcactagcct 2880 
tcgccttgac ctcttcactc gtcttcgcct 2940 
tcgcttctac attcgtcttc gcttctgcga 3000 
cgaacgagct caccccggca actcgggggc 3060 
tggctatctt tagcggcagc tcattccaga 3120 
gatggggcgg aatctctcgg tgctgcaggg 3180 
ctgccgccgc ctccaggtgg ccgaagttgg 324 0 
cgacggcacg cccctcgccc agcaccgctg 3300 
gcggcgtccc ggttccgtgg gcttccacgt 3360 
tcttgagcgc cgcccgaatc acggcttcct 3420 
tgctgcggcc gccgtggttg acggccgatc 3480 
cacgcgtcgc atcggacagc cgcttcagca 3540 
aaccgtcggc ggaggcagcg aaacttttgc 3 600 
ggcagaagta gatcgtgctt tccggcgcca 3660 
tgctgcactc tcgcgactgc aagctgcggc 3 720 
agcacgccgt gtcgacgggg aagttcggtc 3780 
cggcggcagt gctgaacgcg gttccggtac 3 840 
taggtttcag ccggctgtag tcgtcggtgc 3900 
ccgcgagact gtcgggcggc cgacccgcac 3 960 
9 ca 99cgctg ctgcggatcc agaccggcga 4 02 0 
cgtcgaagcc gtcgacggca ccatcgagga 4080 
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atccgcccag acgcgtgtac atctttcccg 
cggcatccca acggcccgca ggaatttcgc 
gccaaaatgc ttccggcgag tccgcgccgg 
tgggttcgtt gtggacgctc tccagttcgt 
ggaccgcctg ttgaagagga gtgagatcgc 
ttccgtgatg aacgccgcca tctcctgctc 
atcgctgggg acgtcgagtc cgagttcgcg 
cggatggtcg tatagcaatg tcgcgggaag 
cgccagatcc agcgccatca gcgaatcgag 
gagcgtcttg gacgcatcga gcgccagcac 
cagcagttcc tgccgccgct ccggcgcagc 
gctcgccggg ctccgccttt tttcggcgga 
ctcgcccagc agatcgccga agatgcgcgc 
cggcaggcct tgccgcgcga tgcgcgcggc 
gatgctcagc gccggtagtc cttgcgcgcg 
gttggccgcc gagtaattgc tctgtccggc 
gagtacgaaa aagtcgagcg catggtggcg 
cagcttcggc gccagcacct tctcgaaacg 
atcgagcacg cctgcggcat gcacgactcc 
cagcgccgcc agctgttgct cggaactcac 
gagttgctcg agatcggcaa ctgcctccgt 
gccttgctcg atcaagcggc gtgccaccct 
cagatagacg ccgtcggctg aaatggcagg 
cagccggcga acgtagcggc gtccgttgcg 
acggatttca tccagcagca tggcggcggc 
caggccgccc cacagctcgg gatgctcgcg 
agcctggaaa ggatcgacgg gagtcgcatc 
gatcagccag agccgcgccg ggcggccgac 
gagagtgacg ccggacacga cgcgcagctc 
gccggcacac agcaaccagt cctccggctt 
tcgctcgcac tcctgccact gcacatcctg 
ggcatgcatt acagccagtc cggaaaactc 
cgtcagatca ccgacgaacg ggccgctcga 
agaacctgcc ggcggacggt agaagcgcac 
gggctggcaa cgctccgcgg gccaagtcgc 
gccggggtgc agccggtaag cgttcgcgcc 
cagcgcctcg ccatcgcgac gccagacttc 
gacgccgcgt gcgttcatcg cgccgtagaa 
cgccggcagc tcgaaatgaa cggcgccggc 
gagcttccac gaatcgccat cctggctgaa 
gggtgtgaca atcgcttgca ccgtgaccgg 
catcatgaca tcggagacgg cgcagggaac 
aaatgccgac acgtgccagg cgccgggcac 
gagcagaggc gtctccgtgg ttagcgaatt 
gaggcgcgct cccaacatgc cgccgcgcgc 
gaaggtgtca cgctgaaacg gatacgtcgg 
atagagaccg cgccagtcgg gattcacgcc 
cagcacggac caatccgatc gtcccttaga 
gggcagacaa tatcgcccca gcgtggtgag 
cttgcactcg cggtccgcca gggttcgcat 



gcgcgttggg atcgggatcg taaaacgcat 4140 
ggatggcatc gatgccatcg tgcaggagct 4200 
gaaagcggca agccatgccg acgatcgcga 4260 
cgagacgcgc tcgcgtgcgc ttgagcgcca 4320 
tcatcgttcc tctcccagat ggtgcaaggt 4380 
ggacagctgc cgcacttcat cgacgaggga 44 4 0 
gaggacatgg ccggccaatt tctcgacggt 4500 
gctcttgcgc accagctctc cgatggcgcg 4560 
tccgtattcc ttgagcggcc ggcgcgggtc 462 0 
gccgccggcc tgcttgcgga tgcgcatctg 4680 
ttcggtgagt tgctggatga agccgggatc 4740 
gacttggaac accgcgatct gagcggcagt 4 800 
acccacttcc ggcggcagca gcggtacccc 4860 
catgccttcg cccgcccatg gtccccaatt 4920 
gcgcatgtgg gcaaggctgt cgagaaatgc 4 98 0 
ggaaccgagc agcgaagcgg cggaagagaa 5040 
agtgagctgg tgaagattcc aggcaccctg 5100 
agcccacgtc tgttctgtaa ctaccccgtc 5160 
acgcagcggc tgggtgcgcg ggtccgccag 5220 
atcgcaagca gcaaccatga ctgcagcccc 5280 
atgccggccg accagtacca gacggcgcgc 534 0 
tcgtcctaat gcgccgagac cgccggtgat 5400 
cggccgcttc gacgtttcct tgtgccgcac 5460 
caatgcgatc gctttgtcgt cgccggcata 5520 
gatgtcggca ttgtcgcaac cgaggtcgat 5580 
cgcgatcgcc tgcccgagtc cccacagtgg 564 0 
gtcatcactg atgcgatgca cgccgcgcgt 5700 
caaagtctgg gtctgttcca gcgcctggcg 5760 
ttgcggcatc aaaccggcga catcgtctgc 5820 
gccagggccg tcggacttca acgttgtcga 5880 
cagccacgac tgtgcggatt gcagcgtacc 594 0 
ggcgatgacc gcgccggtct cttcaaccag 6000 
gctcgggcgc agacgcgcat gacagcgcag 6060 
cgcttcgatc ccgaccggca cgtatgcgcc 6120 
tccgaatact tgaaaacaag aatcgatcag 6180 
atcctcagcc accggcagac gcattcgccc 6240 
ttccacccaa ctgaaggcgg ggccaagatc 6300 
cgcatcgccg gaaatgactt cggaaggctg 6360 
agtcgccgcg cgcagactgg ctgccgtgtg 6420 
gacctgcacc tttgcttcgc cgtcctcgcc 6480 
cgtatccggc gggatggcca gtgcctgccg 654 0 
cggaccgaag acttcctgtg ccgcttcgag 6600 
aatgaccgcg tcgtagatca cgtgctcatg 6660 
ttcgaagatg acatcgccca acgcgctgtt 6720 
cggctctctc gcgggtacgc gtctcaggct 6780 
cagcgcgacg cggctgggtg attccccggc 6840 
c 9 c 99 ta ^ac aggccgccaa gactttccag 6900 
tagggagtgc agccagaccg cgccgtcatc 6960 
cQtgggatgc gggccgattt ccagaaacag 7020 
cgcgctttca aactgcacgg tttcgcgcaa 7080 
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ctgtcgccgc cagtagcggg cgtcgagtgt 
gttcgacacc agcgggatcg ccagcggctg 
cttgtccaaa atcggatcca tcagcggcga 
cgtttccacg ccggcgcgat gcaggtcatc 
ggagatcacg gtgcggtccg gcgcattcga 
cgcgatgcgg ctcggattgg cgtgaacgat 
cagccgcccc ctggcggtca ccagccgcag 
acacgccgca acatactcgc cgagactgtg 
cgacagccag aactgagcca gagcccattc 
cgtctcgtgc aacggcgaaa ccgactcgaa 
gggacggagc caatcggcgc aacgatcgag 
aagctctgcg cccatgccgg cgtactgcgc 
cggccgccgg cgcaacgata cttcgcgccg 
tgccgcatct gcggcggtga tcgccaagcg 
ggtgaagcaa acgtcggaca gcaacgcatt 
gccggccagt tcgccgagcg cttcgtcggt 
tgtgaccggc ttcggcaaag ggagtgcagg 
ccctccaaaa ccgaacgagc tgacgccggc 
cgacgattcc gtggcgatgc gaaaccggct 
gcgaaaatgc aggtgcggag gaatggtgcg 
cccggcgatt cccgccgcgc cctccagatg 
acaaggcgca gagtccggcg cgtcgtagac 
gcccagcgac gtgcccgtgc catgcgcctc 
cgcgttggcc accgcctctt gcaggaccgc 
gccattgctc cgtccgtcct gattgattgc 
gccatcggcc agcgcatcgg agagccgctt 
cacataaccg tcggctgcgg cgtcgaacgt 
agccttcgac aaagcgatca tgccctcggg 
tgccgcatcg cattcgcgcc ggcgcaggct 
ggaggagcag gccgtatcga ccgccatgct 
gcgattggcc aacatgctat gcgccacgcc 
gtcggcgtac tgaaacagtc cgaagtcctg 
gctgcccgcc agagggccgg gagagatgcc 
cagcagcagc cgctgctgcg gatccatgtt 
ttccgcatcg aaaccgtcaa tgcgttcgag 
cggagcatcg ggatcggagg agtagtactg 
ggtgacaccg tcgacaccgt tcttcaacag 
gcccggaaaa cgacacgcca tgccgacgat 
gcctgcgatg ttttgccgca tgttccgcgc 
cgcaattttt tccctcacga ccttgctcct 
atgtcgtcca acccgctgag tgcagttttc 
gcggcctgcg cttcgaccag cggcagtccc 
gccagcgtgg gatgacccca aatcagggtc 
agacggttgc gaaactccag ggccatgagg 
aggggatcga tagtttgaga gtcgatgcgc 
tcttcgagca atgtcctgcg ggtctgaggc 
tttggcgcat cggcttcgct cgccgcgtcg 
gccgccttgg gatagaactg ccgccactgg 
caagccgagc tgttcagcag ctgttccaga 
tccatgccgc gcaaagccag ccgcgatccg 
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cgtgcctttc ggcaatacgg ctccgctgac 7140 
atacgcgatc gcacctgcaa gcgcttcgaa 7200 
atggaacgca tgcgatacgt tcagctctcg 7260 
ttgcgcttcc gcgatttctg cagccgtgcc 7320 
tgcggcgact gccaccttgg cggcgagcgc 7380 
gaccgctttg ccgcggggaa gcgcattgac 7440 
gccgtcctcc acgctaaagg cgccggccac 7500 
gcccagcacg tagtccggcc ggacgccgag 7560 
cagggcaaac attgccggct gggtatacgc 7620 
caagagaacg gtcagcggaa catcgagctg 7680 
cgcgtcgcga aaaacaggct gcgttttata 7740 
gccctggccg gtgaagagaa aagcgattgc 7800 
cggcgccgcg gccaatgccg ctacagcctc 7860 
gtgactatat gcgtcgcgcc caacctgact 7920 
cgggtgcgac tgcaggaact ccgcgaagtg 7 98 0 
gcgcgccgac agagtgagaa gctgcgggcg 8 040 
cgcctcttcg aggatgacgt gcgcgttgct 8100 
cagacgcggc cgtccttccg acgtccacgg 8160 
gccgtccagt gagatgttcg gattcagccg 8220 
atgctgcagg gcgagtacgg ctttgatcag 8280 
cccgatgttg gtctttacgg aacccagcag 8340 
cgactgcagg gcctcgatct cgataggatc 8400 
gatcaacgat acgtgggatg gatcgatgtg 8460 
cttctgcgcc tgcagattcg gcgccgtgat 852 0 
cgagccgcgg atgactgcac ggatggcatc 858 0 
cagcagcacg atgccgcagc cctcgccgcg 8640 
cttgcagcgt ccgtcgggcg ccaacatgcg 8700 
agtcaggatc aagttcactc cgccggcgaa 8760 
ttggcaagcc agatggacgg cgacgagcgc 882 0 
cggaccgcgc aggtcgagca gataggagat 8880 
ggaacccgac caagctccga tgcgggcagg 894 0 
ggcgcaggag ccggcaaaga cgccggtcgc 9000 
ggcgtcctct gccgcttccc agcacacttc 9060 
cagagcttcg cggggggaga tgccgaagaa 912 0 
gaaggcggca tatcgcgcat acgccttgcc 9180 
gtccgagttc cagcggtctg gcggcacctc 9240 
cgtccagaag gcgtccggat tcttcgcgcc 9300 
ggcgatgggt tcggcgtgaa ccaggtcgaa 9360 
caatagcgcg agtttgaccg acgacatggg 9420 
cggagcgcag ccacggctgc ttcttccgac 9480 
a tggcgcggc tgtctccttc cgcagcagcc 954 0 
atttgcgacg ccaggtgcgg ggcaagaccg 9600 
gcggggagcg tgagacccag tgtgagttcg 9660 
gaatcgaagc cgagttcctt cagcgggcgc 972 0 
agcacgcgcg ccagctgctg ctgtagatgt 978 0 
tcggccgatt gcagccgcgc gcgcaacgcg 984 0 
tcatgcaaaa gctcgaacag tgcagactgc 9900 
cggacattga tgggcatcgc ggcgacgtgg 9960 
atagcgaggc cgtgttgcgg cgtcaggttt 10020 
cgattgtcct gcgcggcagc cagcccgacc 1008 0 
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tccgaccacg caccccaacc gatgctcagc gccggcaggc cttgggcctt ccggtagtag 10140 
gccagcgcgt caagaaaggc gttcgcggcc gcgtagtttc cctgggcggg cgcgcccagc 10200 
agtcctgcag cggaggagaa gagcacgaaa tgatcgagcg ggcagtcgcg ggtgagcaag 10260 
tgcaggttcc aggcaccgtc gattttcgcg gccatcacgt tgcggaaatg cgcttccgtc 10320 
tggttcagta gcagcgcatc gtcgagaacg gctgcggcat gaatcacgcc gcgcaatcga 10380 
tcgatggaag agatcacgcg ctcgagttca tcgcgctgag aaacatcggc ctgcaccgtc 10440 
cggacatctg cgtccatgac ggcgatggct tgctggacct cgggtgaagg cgcgcggcgg 10500 
ctcagcagca ccagccgccg ggcgccgcgt ccgatcatcc agcgtgcgac ggtaagaccg 10560 
agcccgccaa gtccgccggt aatcaagtag gttccctcgc tatcgaacgc cgagcgtagg 10620 
ggtgcgatgg gcgcattggc gcaatctcgc atcgccatga cgattttgcc gatgtgccgc 10680 
gcctgcgcca tggtgcgaaa cgcctccacc gattcggtga tggtcgtcac tcgcgtttcc 10740 
aggggccgcc aggtttccga ttcgaatttt gcgaccatct cctgcagcag ctcccgggtc 10800 
aatgccgggc gcttcaggga catgccgagc aaatcgacca gcgtgtacga gaggttcttc 10860 
aggaacgggc gaagccccag cttgcggccg gcatagtaat cgcgcttgcc gatctcgatg 10920 
aaccgtccat gatcgcgcag cagatcgaag ctcgcctcca gcagatcgcc ggaaagcgaa 10980 
ttcaggacga cgtctactcc ttcttgattc gtccaattgc ggatgtcgtc cacgaaagcc 11040 
atcgagcgcg aatccgaaac atgcgcgatg cccagcgagc gcagatacgc tcgtttttcc 11100 
ggactcccgg cagtagcgaa gatctccgcg cccgcacgct gtgcgatctg gattgccgcc 11160 
aatcccacac cgccggtggc agcgtgaatc aggactcgtt cgccgggcgc cagccgcgcc 11220 
gctcgcgaga gcgcgtaatc ggcggtgaga aacgcgatag gcagggcggc ggcctgttcg 11280 
gcgggaatgt tggccggctt caaggcaacg cggaaggcgg gcgtggtgac gaagcgaccg 11340 
aaactgcaag gcgcaagggc cacgacttca tctccgatgc gaaagtcggt gacgcctttc 11400 
cccatggcca cgatacggcc cgagcattcg ccgcccaggc gcgggctgcc ggcaatcgcg 11460 
ccgggcgcat cgtcgggcat aacgccgagg gcgagcagaa cgtcgaggaa gttcaggccc 1152 0 
gcggcgcaga cttcaatctc cacttcaccg gcttgcgggg ggcggcgcga tgtggcccgc 1158 0 
aagcgcagcc ggtcgaggac tccgggggca tcgatctcga gccggaacgg ccgatcgccg 1164 0 
gccttgaaca tggcgggttg catatccgct tcgtgccgag ccacgcgcgc gacgtaacgc 11700 
gcgccgccgc gaaaggcgat ttgattctcg ccgttgttcg tcagcagttc gtgcaggagt 11760 
tcctcttcgc cgccggcggg atcgagatcg atcagcgtgc agttcagttc cggatgttcg 11820 
taatgcacgg tccggcccaa accccagaaa ggcgcctgag cgataccggc ttgcaggatc 11880 
tgtccatcga ccggctgcgc gccgcgcgtg accagccata ggcgcggtgc ttgacgccag 11940 
ggcgtgcgcc ccagggtctg gaggagatgc agaatgcggt cgcatgaggg ttcgtgctcg 12000 
agcaaaaaca cgatttcctc gagcggcggc tggagttcat cgagcttttc cggcgaggtc 12060 
tgcgtcacgc ggttgccggt agcgcgcagc catgcggtga gcgcgctatc cacagcgccg 12120 
acaatgagcc atgaccgcgc cgctcgcgcc gccggcggct ctgcagcggc gtgcggctga 12180 
gcgacccagc gcagttcgtg caaccagccg cgcatgtcga tgcgctccga cgcatccagg 12240 
cgctgcagcc gcagaccctc gatgcgggcg accagttgtc cctctccgtc cagcagcgac 12300 
agatcggcga taggtccttc cagccgcgca tgcgtccaca ccacggaacg tgcgggatgc 12360 
agccagcgca tccggtcgat gccggcgggc agccaggttc caccggcggg accaaacgcc 12420 
gcggcgatga tctgcagaca tgcatcgagg aacgccggcg cagtggaacg cgtttccgag 12480 
ctacgcagac gcccgatcgc ctcacctgga caactccaga tctgctcgag cgcgcggaaa 12540 
gccggaccat actcgacgcc gtgctccgcc atctgacgcc acagctccgc cgccggcacc 12600 
actgtggggc agcgggcctg caccgtctcc gcagaatccg gcgggacggt cgatgcatcc 12 660 
gcaggcgtct gacgaatgtc cccggaagca tgcaggaccc atgtcgatgc ctgccggctg 12720 
gaaatccgaa acgacgccat cccgggtcta tcgaccgcga tggccagctg caacgtcatg 12780 
ctgccgtcgc gcggcacaat gagcatctgt gtgaaagtca catgctccag cacgcacgga 12840 
ctttcaccga aggtctcgga agttccggcc agagccatat cgagatacgc agtagccggc 12 900 
aagacgactt cgccctgcac gcgatggtct gccagccaag gcacggaagc gagactgagt 12960 
tccgtctccc agaagaaagt gccgggttgc gtcgaggctt cgacgcgttt tcccaacagc 13 02 0 
ggattgccca acgtgatcgc gtgtcgcgcg ggggaagcgt cgagccagaa acgacgacgc 13 080 
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tgccagggat accggggcag gcgcacgcaa ttgccggaag ggtacacggt ccgccatgcg 13140 
acagtgtgcc cagcctcata gagggcgccc agcgacgtga gcatggaacc gcgttcgtcc 13200 
tggtcgcggc gcagagacgg aaccagcgcc gcattgccgc. cgatggcggg cagcaggatg 13260 
ggatgagggc tgatctcgag aaagacatcg tgcccgctgt cggcaagatg gcggatgccc 13320 
tgccagaaca gaaccggcga tcgcagattg cgagcccagt acgtgctgtc gaggctggtg 133 80 
gtctccagcg tcgcgccggt caccgtggag taaaaaggta tggtcgcggg ccgcggttga 1344 0 
atcccgtcga gcgactgcag gagttcgtcg cacaatgggt ccacttgcgg gctatgcgcg 13500 
gcgaagtcca ctttcaccgg ccggcaagac acgcctcgcc gctccagcgt cgcgacgacc 13560 
tcggccaggg cttcgacttc accggagatg acggtggagt tgggtccgtt cgacaccgcg 13620 
ggcgatagtc gttccgtgta agtcgacagc acggcctcac attccgcgag cggcagctcc 13680 
accatcgcca tcccgcccag gccgctgatc cggctcaaca gccggctgcg gctgcaaatg 13740 
atccgcgccg catcctgcag cgtcagcgca cccgcgacat gagcggcggc gacctctccc 13800 
atgctgtgcc cgatgacggc atccggctcg attccccagg aacgccacaa tgcggcgatg 13860 
gcgacctgca gcgcgaagag cgcaggctga atgacctcga cgcggtcgag cttcgccagt 13 92 0 
tcttctttca gcgaccagtc cacataaggc cgcatggcgg cctcgcagcg ttccaacgcc 13980 
tcgcgaataa cgggttcgcg gtccatccag ctgcgcccca ttccgatcca ttgcgatccc 14040 
tgtcccgaga agacgaatac cgtcttccgt cgctgggaag ggatcgtgat cccctggagc 14100 
tgcgccgcca gttcttcagc cgttctgccg gaaacagcga gccggcatcg gtgatgcgtg 14160 
cggcggactg cggccgtgta gcaaagatca cgcaggctcg gtgcgtgcga cgctgtcagc 14220 
aattccccgt atgcccgcgc cacccgacgc agttcgtccg caccatgcgc ggacagcgga 14280 
agcacataca tcgcgtctgc aatgcccgta gttgccgcag tgcctgcagt ccctgcaatg 14340 
tcgggagtgt ctgcagtgtc gggagtgtct gcagtgtcgg gagtgcctgc aatgtcggga 14400 
gtgcccccag tgtccccctc cgcgaggggg acagccgccc gcgcagcggc ggcggggggt 14460 
cgggaatgga acccgctcgc agcttcgcct ctaccagtcg gcgccgcttc ttcaagaacg 14520 
acatgcgcgt tcgtgccgga ccaaccaaac gcgctgacgc ccgcaaacct tcgtctcgaa 14580 
cccgcgggcc acggccggac ttccttcaca atgtcgagcg acgttccctc caaccggata 1464 0 
ttcgggttca gctgtctcac gtgtaagctc ggcggtatcg tctcgtgact caatgcgagc 14700 
accgctttaa tcaatcccgc tatgcctgcc gctccctcca ggtggccgat gttcgatttc 14760 
agggacccga ccgcgcacac atcgccgaca ggtcgcggga ggccgacggt ttccgccagc 14820 
gcctcgatct cgatgggatc gccgagcgga gtccccgtgc catgggcttc gatgtaaccg 14880 
atctgctgcg ccgcgacgcc cgcattggcc aatgccgacc ggatgacgac ctgctgagac 14 94 0 
acgacattgg gagcggtgag cccggccgag cggccatcct gattgaccgc ggagccgcgc 15000 
accacggccc acacccggtc tccggccgcg agtgcatcgg acaggcgctt cagcaccacc 15060 
acgccgcagc cttctccgaa cacgatgccg tccgccgccg cgtcgaaggc gcggcagcga 15120 
ccgctgggcg aggcggttcc catcttcgag gtggcgtaca taaactccgg cgagaagcgc 15180 
agattcactc cgccggccac ggccagcgta cactcgccgc tgcgcaggct ctggcacgcc 15240 
agatgaaccg ccgccagcga agacgagcag gccgtgtcga gcgcgatgct gggtccttgc 15300 
aagttcagca aataggaaag tcggccggcg atcacgctat gcgccgtgcc ggtggcggta 15360 
tacggatcga tgcgcgcgcc atcggcggtc tgcatccaga aatagtcgct gctttggctg 15420 
tggatcccga cgaagacgcc cgtgcggctg ccggagagcc cttccatcgt ctgccccgca 15480 
tcctccagtg cctcccacgc cacttccaac agcagccgct gctgcggatc aatgctgacg 15540 
gcctcgcgtg gcgaaatgcc gaaaaaatcg ttgtcgaaac catcgatgga atcgagaaat 15600 
ccggcttgaa tcttcaccgg cgtggcgggg ttcaacgatt tcaggatgcg ccggaccgac 15660 
tcctcgtccc atcgtccagg cggtacctca cgaatagcat cgactccact gcgcaacatc 15720 
tgccagaact catcgggccc atcgccgccc ggaaaccggc agcccagacc cacgatcgcg 15780 
atgggttcgc gcgcgtcgcg ttcggccgca tcgagacgtc gctgcatgtg ctccagcgtc 15840 
aggtacgcct gctgcaacgg cgtaaggttg gggaatcgct cggatatcga actcactcgg 15900 
aggctcctga aaaatgagcg aacttctgtt tcaacaaagc ttcgatttct ttgtccccca 15960 
acccggcgat ctggtttgcg acggcgtcga gatcgtctgc agcggcggga ctccggtcct 16020 
cgcccgcggc ggtgccaacg gtagcaaggg tagcaacggc agcaacggtc gaaggttcag 16080 
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cattgccggc catgctttcc agcggcaggc cgagcttgtc ggcgagatgc tgcgccaggg 16140 
cggagaatgt cgggtaacgc cagatcaggg tggcagaaag cttgacgcgc agcccggctt 16200 
ccagacggtt gcgaaactcg agggccatca acgaatcgaa tccgagatca cccagcgtcg 16260 
ctctgccgtc gagtttcgct ggatcgaagc gcagcacgtg tccggcttcg tgcatcagca 16320 
gcgtttccag ccgcgcgcgg cgctgccgcc cggctggaac tgccaggagc tcgctgcgca 16380 
tgtcggccgc cggtttggtg tccgcggccg cgggtgcgat gccggccagc agggacatcg 16440 
atgcggccga cggatagtaa cggagccact gcgcgatatc gaagttcatg acagcgacgt 16500 
gcggccgaat ctgcgtcaat gctttgtaga gcgcgcgcaa tccctgttgc ggttgaataa 16560 
ccgagatgcc gcgcgcggcc agacggtctc cgcggttcgc ctgtgcggcc aaaccaacct 16620 
gtgtccacgg tccccacgcg atgctgacgg cgggaagacc ctgggcgcgg cgcagatgag 16680 
ccagcgcgtc gagaaatgaa ttgccggcgg cgtagttgcc ctggccggga gatcccactg 16740 
tcgcgctggc ggaagagaag agaacaaaat gatccagcgg ccggccggcg gtgagttcgt 16800 
gcaggttcca cgcgccggct actttcggag ccatggcggc ttcgaagcgt tcggtcgtga 16860 
gattgagcag catgccgtcg gccagcgtgc ctgccagatg gaacacgccc cgcaacggcg 16920 
gcatgtcgcg atcgatgatc gcgagcgcat ccgatagctg ctgccggtcc gccacgtccg 16980 
catggatgat cttgacgttg acaccttcca gttgtggccg aggacgctcg ctgcgtccca 17040 
gcagaacgag atggcgcgct ccggcggcgg cgagccatcc cgccacctgc agtccgagtc 17100 
cgccgagccc gcccgtgatc agataggttg cgtcggcacg gaacgccaca tcgggtgcgg 17160 
atgggatctt gtgaagactg aggcgcggcg cccataccgt gccttgccgg atcgcaactt 17220 
gatcctctgc gatattcgac agcatcagcg tcgcgagatg cccgcagtcg ttgctgtgcg 17280 
catcgagatc gacgagcgtg cagcgcagct cgggatgctc ataggcaatc gtccgcccaa 17340 
ttccgtgcag ccaggcttgt cgaatatcaa tatctttgtc ggagttgaga accgcggcag 17400 
atccgcgcgt cagcagccac aggcgcggcg gctcaggcca gcccgcttgc acgatgctgc 17460 
gcaatacgga aagcaggtcg tcgatgcgcg gcgagggaca gtacacaatt tgacggcacg 17520 
gcggacccga gcacgtatcg gccgtgcggc aggtttggcc gcgcttttgc agagtctcgg 17580 
caatcgccgg ctcgccgatg acgagccaag gtccgccagc attgccggca ttggcatcgc 17640 
cgcggcgaac cgacgcggtc cattgcaccg tccaggtggg aatctccgat tcgccgagct 17700 
ggccgctatg ggcgactctc gactgcagcc ccaccaattc cgccaccacg ctgccggtgc 17760 
c 99t9 ac 9 a 9 acggacatcc accgtggaat ccggccgcaa gaccgcgtat ccccagaccg 17820 
ggccagtggg cacttcagcg agcgagaatc ggtccagacc taccggcaca tgcacatctt 17880 
tcaaatcgtc gtgatggacg agggccgcgg gcaactgcag acagcagtcg atcgtctgca 17940 
tttccgtcag cggaatgtcc acgcgacaaa gcacctcacc gttgccgcgc cagatggggc 18000 
cgatggttcg gaaggtggga ccgaagtgat agccgcgatc ccacagtcgc gaatagaagg 18060 
catcggctgt gagctccgcc gtgcagcggg cgcgaatcgc atccagatcg atggatgccg 18120 
tggaatcgcc cgcctgcagc atgccttcgc tgtgcagctt ccaggaatcc tcgcggctgt 18180 
agatgcggaa ggaagctccg ccgccctctt catgacggag taccagttga acctgcctgg 18240 
cagcatcgtt ttccggcagc gtcagcgcgc ccgtcaatga cacgtgttcg acatggtgag 18300 
gcccggcgcc gagaccttgg cgcgcagcgg cgagcgccat tgccaggtgc cacgctcccg 18360 
gagtcacgat cacatcgtgc agccggtgat ccgcgaaatc tttcgcctcc acagtggact 18420 
cgaactgcat ctccggcagc ggcgacggga tccgccggcc aggcaaagcc tgagactcga 18480 
cctgcggcgg acggatatcg atccaataac gctcacgctg ccagggatag ttgggcagcc 18540 
ggcgagtttg gccgccgttg ggataaatac gagaccagtc cggagtgact ccgttagtca 18600 
gcagcgctcc cagcgtccgg cgcagtgcga ggtttccgtc ttcatcgcgc cgcaacgagg 18660 
cagcggcaat cgctgcccga tctccgagcg tttcctggat cggctggacc aacaacgggt 18720 
ggggactcag ttccagaaac acatcatgac cacccgccgc ggctgcggcg acggccgtcg 18780 
acagcatcac gggttggcga agattacgag cccagtacgc agaaaccagc tcttcaccgc 18840 
taatcgctgc gccggtgacg gtggagtaca tgccaagggc ggccggccgc ggctgaagcg 18900 
ctcccaccac gcccggcaac gccgcgcaca cggagtccat cagatggctg tgcgaggcaa 18 960 
tgtccacttt cacgcgacgg cagaagacgt ctttcgcctc cagttcccgc agcagttcgc 19020 
ccagagctgc gctgtcgccc gacaggacgg tgctgcgcgg gctgttgctg gcggcaatcg 19080 
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agacccgatc cgagcgcccg gcgatggcag cgatggcctc gtccagcgct aattccacga 19140 
cagccatttc tccctggccg cgtactccgg cgagcatccg gctgcgcagg caaatcaccc 19200 
gagcggcttc atcgagagtc agcgcacctg caatgtgcgc tgccgcgact tcgcccatgc 19260 
tgtggccgat cacggcgtcc ggctcgattc cccaatggcg ccacagtccg gccaaggcga 19320 
ccccgactgc gaacagggcc ggttgaatca cgtcgatgcg gtcgagcggc ccctgcaact 19380 
cttgcgtcag cgaccagtcg acgtaaggct gcatggcgcg gccgcactct tcgatggcgg 19440 
cacggaacac cggttcagaa gccatcaggt cgcggcccat gccgggccac tgcgatcctt 19500 
gtcccggcaa aacgaaaacg acttttcgct tctggccgcg cggcacaaaa cctgtggcgg 19560 
tatcgcggtt cgggttgccc gccagaaaac tgtccagccc ggccatcaag tcctgcgcgt 19620 
tcgtcccggt gaatgccgcg cggtgttcgt atgaagtgcg gcgagcgcac gccgtgtagc 19680 
aggtgtcggc ggggttgtcg ttcaccacgt cgcggtatgc gcgcgccaga tcacgcagcg 19740 
cctccggact gcgcgccgat agcggaagca ggtacggtgc gggcgtactg gacgcggcct 19800 
gttgcggcgc ctgctcgatg agcacgtgcg cattcgtacc gctcaagccg aacgagttga 19860 
tgccggcgac gcgccgcccg ccgggtgcaa ccggccaggg ggtgagccgt gccgggattt 19920 
cgaggggaag cgtgttccaa tcgatgtgcg ggctgggcgt ggtcagattc agatggggcg 19980 
gaatggcttc gttctgcagc atcagcgcca ccttgatcag tgcggccacg cccgctgccg 20040 
cctcgaggtg gccgaagttg gtcttcaccg acccgagctt cagcttgttg ccgttggtgc 20100 
gccccgctcc cagcgcggcc gcaagggctc cggcttcgat gggatcgccc agcggcgtgc 2 0160 
cggttccgtg cgcctcgaca tagctcacat ccagcgtctg caagcgcgcg tctcccacag 20220 
cctggcggat cacggcttcc tgtgcgggcc cgttcggcgc cgtcagtcca ttgctgcgtc 20280 
cgtcctggtt gattgccgtg ccgcgaatca ccgccatcac cggatcgcga tcgcgcagcg 20340 
cgtcggagag tcgcttcagc acaaccacac cgcagccctc accgcggacg tagccgtctg 20400 
ctgcggcatc gaatgcctta cagcgaccgt cggctgccat cgccttcagc ttgcagaagt 20460 
agatcgtccg atccggcgag agaatcagat tgacgccgcc cgccagcgcg aggtcgcttt 20520 
cacctgagcg caggctctga caggcaaggt gcaccgcgac cagcgatgac gagcatgccg 2 0580 
tgtcgatcgc catgttcggg ccctgcagcc cgaggatgta cgagagacgc ccggcggcaa 20640 
cgctggccgt attgcccgtg ccggtgtacg cgtcgatatg cgcatccccg ccgcgcattt 20700 
gcaggttgta ataatcgttg gaaaagatcc ccatgaagac gccggtccgg ctccccgcca 20760 
gccggtcggg tggaagcccg gcgttctcga tcgcctccca ggtgacttcc agaagcagcc 20820 
gctgctgtgg atccaggctg atcgcctcgc gcggagcgat gccgaagaac cgggcgtcaa 20880 
aacggtcaac ctgatcgatg aagccgccgt accgcgtgta cattcggccc gtcgcgccgg 20940 
gatccggatc gtagtaggca tcgatgtccc agcggtcggg tggaacttca cgtaccgcgc 21000 
tgcggccctc gcgcagcaac gaccaatagg catcgagatt ggatgcgccg gggaagcggc 21060 
agcccgcgcc gatgagggcg atgggctcgc tgcgcgcgct ctccagctgg tcgatgcgtt 21120 
tctgcacctt gtcgagcgca atcacggcgc ggcgaagctt gctgagatcg tctgacccgc 21180 
tcatgtttat tgcgtctcca accactggtc gacctgcgcc agccgcgaat cgagcagcgc 21240 
ttccagttct tcgcgggcga ggttctcaaa ctccggcgct tccaccggtg atgcttcggg 21300 
tggaaatacc gcatggagca cgtaactgac gatcgcatcg agcgacggat agtcgaacag 21360 
cagactcgcg ggcaaaggct gccccagtga ttgggagagc gagttgcgaa gttctatggc 21420 
cattagcgaa tcgagtccca gttcacccaa aggctgctgt ggatcgagcg gtgtggaagt 21480 
cgcgatgccg acaaagcgcg ccagtgactc cctgatgtgc gcaatgagga tggcttcgcg 2154 0 
ctgccggggt gtggcttcgt tcaagcgggt gcgcagttga ggtgaaggca gcgcggcggg 2160 0 
acgcagcaac tcgccggtaa tcgagcccgc cggtagcgcg gcaatctgaa tggggcattc 21660 
atgcaggacg gcctcgagaa tgtgtagacc ctcgtccacg gagaggctcg ccacgccggc 2172 0 
catcgactgg ctggtgcgcg cggccattcc ggctcccgac cagcgccccc agttaatgct 21780 
ggtcgccggc aaacccagtc cgcgccggtg atgcgccagc gcatcgagaa cggcgttggc 2184 0 
cgcggcgtag cctgcctgcc cggcaggacc taagagcgag gatgccgatg aaaagagcac 21900 
gaagaagtcg agcggcagat cgcgggtgtg atgatggagg tgtacagcgc cttccgcctt 21960 
cggcgccatg acgcttgcga tccgcgtcca gtcctgattc agcagtacgc cgtcgtccag 22020 
cacacccgcg gcatggataa cgccgcgcag cggtgacgtt tcggtgtgga tgcggcgaat 22080 
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gagatccgcg acctcttctt cccggctgac gtcgaccgtc tctgccgtcg caccaatctg 22140 
ttgcagcacg cgctgctgct cctcgtttgg aggccggcgc ccggccagca cgacgcgagt 22200 
ggcgccgtgc tccaccatcc atttcgcgac tgtaagtccc agggctccga gcccgccggt 22260 
gatcaaataa gtcgcgcccg aaaccagacg gactgccgct cgcgcgctgg gtcggcgggt 22320 
cagtcgcggc acgtagcgcc ggttgcttct ccacgccgac tgatcttcgc cgtcgaaatc 22380 
acgcatctgc gcggccgcgc cggccgccga agcatgcgca tcgtcgggat ccagatcgat 22440 
gagcccgccc cacagatccg ggtgctcgcg cgcgatcacc cggccgaagc cccagagcgc 22500 
ggcctgcatg ggattgtgca ccgcactggt cgcctgcgcg ccggccgtta ccagccatag 22560 
ccgcggaccg gacttcaggg acttcaccag ggccagagtg ctgcggcagc cgagctcata 22620 
atcatcgaga ctgtacaggt tgacgatccc gcgccagtca cgctcaccga ctagggacat 22680 
gtactcgccg gctggcggca cggtaacgca catctcgccc tgagctgtga gcgcatctgc 227.40 
cagagcgcgg gccgcgccgc cactgtcggc caggatcagc catgccccag gctgtagcgt 22800 
tcgcgaaggc tggcggagcg gttcgggccg ccactcgacc tcatacaatt cgggcttccg 22860 
ttccgagcgc tgcgcccatg cgcgagtgac gcgccggaaa ctcacgccct gaagttcccc 22920 
gagaacgcag ccctccgagt ccagcaactg cgcctcgccg gtaaagccgt ccggcgaatg 22980 
ccggagaatt tgcgcggccc cccatacggc gccctccagg ctgccgtaaa aacaaacgcg 23040 
atcgataccg agcggagcga atatcggatg ttcggcgcca tccgcaagcg cgggactcgc 23100 
cgcggcgcta agcaattgca ggccggcttc cgccaattca caacggggat tgagcggcgt 23160 
tgcggaatca atcgcggcca gcgcttcctg ttcaccgaaa tgaatgcgct gtatgcggcg 23220 
gtagctcggc cccagttcta tctcgaggtg gcgcagcagc gaatagtacg tgtctccatc 23280 
caccgcaggc cggcgttcat cgaccagtcg gggcacggga gcgacaccag cgtgggcggc 23340 
aatattgccg gcagcatgta agttccacga gccgtcggac aagctgagta tgcggaacga 23400 
ggcatgccgg tcatcgctct gtgaaagcac gagctgaaca gccgtgtcgc gctccgctga 234 60 
aaggatcaga gggtgcgcga agttcacgtt ttccagcgtg tgccggccgg cgccaaacac 23520 
ctccgccgac gcctcgagcg ccatggccag gaagtacacg gccggggcca ccaccgaacc 23580 
gtaatatcgg tggtctgaga gtagaggcga agccgtcgat agtttcgact cgaagataac 23640 
gtctgccacc ggtagcgaca gccggcaccc gacgagacca ctcgcaaccg ctacaggttc 23700 
cggtctggaa ctccgctcga tccaatggcg gcgtctctcg aaaggatagg ccggcagggc 23760 
gacacgcctt cgcgaatacg gacggtcgaa ctcctgccaa tcgatgtcga acccaccctg 23820 
atatagcgtc gccacactgc tgagaatcgt ctcccactca tcgcggcctt tacgcagcga 23880 
cggcagccac tgcttggcgt cgtcgggcag gcacttttgg cccatgccga gtagaaccgg 23 94 0 
cttaggaccg atctcgagaa acacgtcgca gccttcgtcc ttgagcgttt ggataccgtc 24000 
ggcgaaacgg acagggtttc gagcgtgatc tcgccagtac agcggattcg ccagctgtcc 24060 
ctcgccggcc agtttgcccg tgaggttcga aaccaagccg atcgaaggat tgcgccacgc 24120 
gatcgccgcc gcccggcgtt gcaggtccgc cagaatcgga tccatgctcg agctgtgaaa 24180 
ggcgcgcgca acggccagca tctgcgtttt gatgccctcc gcacgtagag ttgccagcgc 24240 
gctctcaata tcctgcggcg cacccgaaat cacgacctca gcgggtccgt tgatggccgc 24300 
aatggagacg cgcgaggtga tcgctgcggc acagcgctgc tcgccggcgc tgaccgcagc 24360 
catcgcacct tccggcaggt tctgcatgag ccggccgcgt tcggcaacta agccgagcgc 24420 
atccggcagg ctgacggcgc cggcaataca cgccgccgcg tattcgccga cgctgtgtcc 24480 
catcaccagg tcgggcgtca caccccagga cttccacaac tgcgccaagg cccactgcaa 24540 
agcaaacagc gcgggctgcg cgccggcggt cgcgtcgagc aacgcgtcat cggccaacag 24600 
cgccggcaga tcgagccgtc cattcagcag agctgcgcat tcatccatgg cggcgcgaaa 24660 
caccggctgc gactcgtaga actggcggcc catgcccgcg tattgcgcac cttgcccggt 24720 
gaaaagaaac gcaatcttgg ggcgcgtctg ggcgatgcga acccgtcgtg cctccgtcag 24780 
tcgttggcga gcctcgtcgc tcgaccgggc cacaatgcag atacggtgcg ggaagtgcac 24840 
gcgccctgca ttggccgtga atgcgacatc gccgaacgac aaaccgggct ggttgtccat 24900 
atggccgcga tacgagcgca ccagttcttc gagggccgcg tctgtattgg cggacaggca 24 960 
aagcacatgt gcggatcgtt cgggcgcagc tgcggccggc gtcaccggcg gcgcttgctc 25020 
cagaatcacg tgagcgttgg tgccgccgat cccgaacgaa ctgactgccg ctcgtctcgg 25080 
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ggtctttccg gcgggccagt cgagcagccg cgtactcaca cgaaacggag tgtttgcgaa 25140 
atcaattcgc ggattcggac gctggaaatt caggctggga ggaatctggc cgcgatggac 25200 
ggcaagcacc gtcttgatca gcccggccac accggccgcg acgtctagat gaccgatgtt 25260 
ggtcttgacg gatccgatat acacatcgcc gcttccgttt ttcggaaagt tggcagcgat 25320 
ggcggcgatc tccaccggat cgccgagcgg cgtggctgtt ccgtgggcct cgatgtagcc 25380 
gatggactcc ggcttcacgc ccgccatctc ttgagtgcgc cgaatcaatc gcgtctgacc 25440 
gtccacacct ggagcggtaa accccatgcg ctcggcgcca tcattattaa tagccgctcc 25500 
gcgaatgacg gcgtagatcg tgtcgccatc ggccagagcg cggctcaagc gcttgaggac 25560 
gaccacaccc gcgccgttgc ccggcaccgt gccttgagcg gactcatcga aggcgcggca 25620 
gcgcccgtcg ggcgacagga tcatgcccgg ctggtgcagg taccccacgg actgcggaac 2568 0 
attgatggca actcccccgg ccaaggcaat gtccgaggcg ccgcgctgca agctctcgca 25740 
tgccatcacc accgacacca gcgaggtgga gcacgccgtc tgaaccgtca ggctgggccc 25800 
gcggaggttc agcttgtaag agacacgcgt ggccaggaaa tccttgtcgt tggccgtcag 25860 
cagctggtac gcggaggggc gtgagaaatc gaacggctcc gcggtggcga ggttgttcag 2592 0 
caggtaggta ttgacgccgc atcccgcgaa aacgccgatc gaacccttat agcttcgcgc 25980 
cgcatatccc gcgttctcca tcgcttccca cgcgcactcg agaaacacgc gatgctgcgg 26040 
gtccatgatc tccgcttcgc gcggactgta gccgaagaac gcggcatcga aaaactcgat 26100 
gccgtccagc agacccttgg ccggcacgta gctcgggtcc tggaagacct ccgggctgat 26160 
gccgcccgcc agcagatctt ccggcgaaag cctggcgatg gaatccacac cgtcgcgcag 26220 
attgcgccag aactcctcca cattgcgcgc ccccgggaac cggccggcca tcccgataac 26280 
tgcgatccga tcttctgcga ccgcagccgc aggttccgca gcggcgggtt cggatttttc 26340 
tgccaggccg gcaagcgact cgatcgtcgt atgccggaac agatcgacga cggagagcgt 26400 
caaccccagg cgctcctcga gcagtccgcg cacccgtgtg agcattagcg agtgcccgcc 26460 
gacatcaaag aagttctgcc gatagtcgac gtgctccacg cgcagaactt cacgccagat 26520 
ggacgcaatc gtctccacca catcgccgcg catcggctcg cgagcagcaa ccggcgttgt 26580 
gggcaaaccg ggaagcgcgt tcgcgtcgat tttgccgttg ggcgtcagcg gaagggagga 26640 
caggctgaca aacgccgagg ggatcatgta atcgggaagg cgcgttgcca gccacgaccg 26700 
caaatcgctc tgcagatcgc gcacgtcgcc cgttgccgga acgagatagg cgatcagccg 26760 
atcgtccttc acgaccgtaa tcgcctgctt cacggcaatg tgcgtctcga tcgcggcctc 26820 
aatctcggcc ggttcgatgc gaaacccgcg cagcttgatc tggcgatcga ctcgtcccag 26880 
gcactcgact gcgccgtcgg aacggtagcg agccagatcg ccggtagagt aaatgcgtcc 26940 
tcgatcacgc cactcgcgga atttctcacg cgtgagctcg gggttgcgat gatagccccg 27000 
cgccagtccc gctcctccga tgtacagctc tcccggaact ccggggggaa ccggctccat 27060 
gcgcgaatcc aggatgtata actgcgtgtt gtcgatggga tggccgatcg gcacgatgct 27120 
atcggaggca cccagtcttt gtgtcttgtg cacggccgac catatggtgg tctccgtcgg 27180 
tccgtaaaga ttccacagct ctacgccact atcgagaatg cggcgcgcca gttccggcgg 27240 
cagagcttca ccgccgcaga aaacacggaa gcctttaccc ggcttccagc ccgaatccag 27300 
caattgccgc caaccgctcg gggtcgcctg catgaccgta gcgcccgact tatccagcag 27360 
ggtggtgagc cgctcgccgt caaccacgat ctcgcgggtg gcgacgatga cgcgggcgcc 27420 
ggtgatcaac ggcagccaga tctccagtcc ggcaatatcg aatgacacgg tggtgacggc 27480 
gaccagccca tcggcggctg tcagacccgg ctcgcgctgc atggagcgca gcagattgac 27540 
tagcgacgag tggcggatct ccacgccctt cggtcgcccc gtcgatccgg aggtatatat 27600 
gatgtaggcg agatcgtcgg gcttgctgcc gctgacgaga ttcgcagctt ctggttcgac 27660 
ggcgaccgcc atcatcgcca tcatcgccat catctcagcc accgcctcct gcgtgaggac 27720 
cgcgtgcggt tgcacttcat cgagaatccg ggcgagacga tccttggggt gcgcgggatc 27780 
gagaggcagg tacgcgctgc cggacttcag aatcgcaagc agcgcaatca ccatctccag 27840 
cgagcgctcc atcgccagag cgatgatctt tcccgggccc gcgccggatg cgctcagacg 27900 
atgagccagg cggttggccc gcgcattcag ctcggcgtag gtcaactgat ggtcttcgaa 27960 
gacaacggcg acggcgtgcg gagtgcgttc cgcctgagct tcgaccagtt catgcgcaca 28020 
cccgttcgga ccggcatcgc gccgtgtcgc attgtgctgc tcgagcatcc ggcttcggac 28080 
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cgcgggggac aacagcgcag cggttgaaat gcggacgtcg ggatccgtca ccacgctcgc 28140 
cagcagggtt cggtacgcat cgagcaggga ggcgatggtt gccgcatcga acaaatcggt 28200 
gttgtattcg gcggacgcca tcagtccatc gccggatggc tcgagggtca cgccgaggtc 28260 
gagtttggat ccgccgttgt gcatgtactc gcgcgagatg gtgagcccag gcatgacggt 28320 
gatggccggc gcatcgggca gcagcgcgaa ggagacctga aatacaggcg accggctcag 28380 
gtcccgcgga ggatgcagtt cctcaaccag gcgttcgaaa ggaaagtcct gatgagagag 28440 
ggcgctcaaa gcggtgtcgc gggtgcgggc gagaagactg cgaaacgacg gatcgtcgcg 28500 
cagatcgccg cgcaggacga tcatgttggc gaaacaaccg acgagacctt ccgtttctcg 28560 
ttgtgtacgg cccgcgactg gaaccccgat aaggatgtct tcctgcgcgg tatagcgatg 28620 
cagcagcacc tgaaacgccg cgattgccgt catgaacacc gtcgctcctt cacgcaaggc 28680 
aaacgcgtgg agtccatcgg tcaaatcacg gccgagggct gtggtctcca cggcgccccg 28740 
ccaggtctgc tgcgcgggcc gggggcgatc ggtaggaagg tcgaggaaag gcaaggtgcc 28800 
cgacagctgt ttcttccagt actgctgcgc ggtttggttc agcgacgtct gctgatggac 28860 
ggcccagtcg ccatactgaa tcggcagttc catgagcggc gatggccgcc cctgcacgaa 28920 
cgcttcgtac gatcgcgtca ggtcgcggac gaacgtctcg accgaccacg catccgcgat 28980 
gatgtggctc aacgtcagca ggagaatctg ctgcttgtca tcgaggcaga tcagcttggt 2904 0 
ccgcagaagc gggggttttc gcaggtcgaa cgggatctgg gcatcacgca aggccatttg 2 9100 
ccgcgcttct gcgattccgt cagcctgaac aaccggaagt tccagtgtca ctcgcgccag 29160 
gaggctctgg cgcgcctctc catccacacc gccaatgcag ctgcgcaggc tctcgtgccg 29220 
ctgcaccacg gcctccagac tccgcaggag gacgcgaata tccagcggac ctcggatatg 29280 
cagcgctatg ggaatgttgt aggcgggaga atccgggtcg agctgatgga gaaaccaaag 29340 
ccgctgctgg gccagcgaca agggtgcggc atcccggttt tcacgccgcg ggatgcgatg 29400 
ttcggggctg ttttcctgca gcagacggtc gagcaattgg cggcgggcga gcgagaggtc 29460 
tatggtattt ggcgacgaat tctgcattac aacccgctgt gttcctagtc ttgggcggcg 29520 
ctcatcatac gctcgatttg aacatctgac atttgggaaa cagcgatcag caaatcggcg 29580 
gctcgccttg cccatcctgg gtctacgccg tcctgaatag cgacggcgaa gcctcgaacc 29640 
gtgggggcgt taaacacggt tcgaaagggc acttccacgt ggagcatgtc gcgcacgcgg 29700 
gcgatcatct gcgtgaccag cagcgaatgt cctccagagt cgaagaagtg atcatggacg 29760 
ccgatgccat ccatgccgag cacctcgccc caaatgtggg cgagtacctg ttccaccgga 2982 0 
gtttccggag gcgtgaatgc ttcggcgtgg gctcgccggc tgggctcggg atcgggcagg 2 9880 
gcgttacggt cgatttttcc gttgggcgtc agcggcattt cgtggagcac gacccacgcg 2994 0 
gtcgggatca tgtagtcggg cagcttctcc ttcagatgag tacgcaactg cggcacaacc 30000 
gtgcgcgtat agacggctcg cagcggatcg ttcgtatacg ggccggccag gcggcgtcgc 30060 
ggacgggaag ccggcggacc ggccgccgca cggcagaagg tcgcgtcgaa gcgtccgtgt 30120 
ggcccatgac tgctccagtc gattgccacg cggtacggca ggtcttcgtc catacgccat 30180 
agatcggcgg gatcgacgcc ggaaggcgac gtctggcgca gccggtcccg caactccccg 30240 
agtgtctctg gagcttcgtc accgttcatc caggtcacaa tggcgctttc ggcggtcaac 30300 
cgtgcgttcg gaatctcggt aaatgcggcc aactccggct gagcgtccgt cagtactctg 30360 
cgtatttcgg ccgcggtctg gcaacgcctg cgatccgatt ccggctcctc cgcttcccgc 30420 
gatccgatat gcaggatcgc ctggtagcgg aagcgggtca gctcgttatg cgaccggccg 30480 
cgacgcggca ggatttcaat ccggccgatc tccggaatct gttcgcggag agcaaagaag 3 054 0 
aacgcgggat cgaccacgag ttcctcttcc tgcgacgcga gcgaacgcac gcgttgccga 30600 
aactcattcc gggtcaacga cgcgggtgcg cgctgaactt ctaaagaagc gtaaaacgtc 30660 
tccagcagcg ggagactgcg gacatcgccg acaaatacga tgccgcccgg tttgaccaca 30720 
cgcaccgcct cggccagcac gcgccgcaga tacgcttcgc cggggaagta ctggataacg 30780 
gagttcagaa caaccgcatc gcacgagcga ctgtcgatct cgcacgcgtc gtcggccgcc 3 084 0 
tgccggaacg tgcggacatt tgccaggccg gtgcggtccg cgtgagcggc gatgtagtcc 3 0900 
agcgccttct gcgaaaagtc cgtggcccag tactccgaac agtggggagc gacgcggaag 3 0960 
agcagcagtc ccgtaccaca gccaatctcg agcacgcgac gcggccgcga ggccaggatg 31020 
cgatcgacgg aatcctgcac ccactcccgc atctcggcag ctggaatcgg ctctccggta 31080 
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acactgcttc tccagccgac gatgttgaac tccggatccg cgttcggcgc attctgttca 31140 
tatgtggtgt cccagacgga ttgccactgc gtcacgtgct cggactcgac tcggtcgtgg 31200 
aatgtgtcgg cggctgccgt cgcgcgatgc ccgtcagcaa gggggacaat gtaggccgcc 312 60 
agatacttac cggccgcgtc attttctctg gcggtgacca cagcatgtcg gaccgccggg 31320 
tgactgcgga ccgcggcctc gatctcgccg gtttcgatgc ggaacccgcg tatcttcacc 31380 
tggtggtcga tccggccgag atactcgagc gcgccgtcgc gttggcggcg ggcgagatct 31440 
cccgtgcgat acagccgagt gccatgaggg tcgaacgaat tggcgacgaa cttgtccgcg 31500 
ctgagttccg gacgattcag gtatccacgg gcgagcccgg cgccgccgat gtacagttcg 31560 
cccgcaacac cgatgggtgc gggctgcatc cgatcgtcaa gcacatagag ctgagtgttt 31620 
gcgatggggc ggccaatcga aaccggtccg tcacctgtcg tcacccgttg gatggcggac 31680 
caaattgtcg tttcggtagg tccgtaaaga ttccatagcg ccgcggttcg ttgcaggagc 31740 
cggtcggcaa gatcgcgagg aagggcttca ccgccgcaga gcgccgtcag gcggcggtcg 31800 
ccgggccagc cggatgcgag cagcagacgc caggtggcgg gagttgcctg catcattgtc 31860 
gctttgctgc gcgcgagttc cctcgccagc ctctcaccat cgacggccgt ctcctggttc 31920 
gccaccacga cgcgcgcgcc ggcgctcaag ggcaaaaaga tctcgagcgc ggaaatgtcg 31980 
aacatgaacg tcgtgagggc gagcagcgta tcgcggtcgc tgatgcccgg ctcatgccgc 32040 
atcgacgaaa gaaaattgac gacggcctgg tgtgtgattt gcacgccttt cggccggccg 32100 
gtcgaaccgg aggtgtacag gacataggcg agatcggcgg gagtcgcgag cgggttcgga 32160 
ttggtgtcgg gctgcgtcca tacttccgat tccgtgacat tcagcacaac gaccggcctg 32220 
gtctcttcca gcatcagccg aagacgttgc gccggatatt ccggttccag cggaacgtag 32280 
gccgcgccgg ccttcaggac gcccaacagc cctgcgacgg tttcgagcga ccgcgtgaca 32340 
tggatgccaa ccatttcgcc gggtccagcg ccgcgcgagc ggagatagtg cgcgatccgg 32400 
ttggcgctcc cgttgagttc gcgatatgtc agattctgct caccgaagct caacgcgatg 32460 
gcgtcgggcg tcaactccac ctgagcttcg aacagctcgt gcacgcattg ggacgggaat 32520 
tccgcggcgg tcgcattcca ctcttcgagc agctggatgc gttcccgggt tgtcagcagc 32580 
ggtagatcga caactggaca ggcgggattc tccgcgattc cttccagcag cacggcgaag 32640 
tgcaaggaga gacgttcaat cgtggcagca tcaaaaatgt ccgtgttgta ttgcagaaag 32700 
gcggagaggc ctccatcggt ttcgaccatc atcagatcca ggtcaaaccg gctctgtcgc 32760 
agcggcatcg ccagggactc cagtgtgagg ctgccccagg ccatgcgacc gccggactga 32820 
cccaacatga acggcacgga ttcgggaatg cgatgaggct gctggagcac gaatagaacc 32880 
cgcagtccgg gacccaaccg ctccacgatc cgggcatacg ggtactcctg gtgctcgatc 32940 
gcgccgagaa gcgtttgccg aatccgggcg agcaccgtat tgaaatccgg atcgcctgaa 33000 
agttctcctc gcaggattac gggattcacg aagtatccga cgagatcggc gaattccggt 33 060 
tgcgtccgac cgttggtgag ggtgccggtc aggatctctt cttgtgaggt ccaacgggag 33120 
agaagcactt gaaacgccgc catcagcgtc gcatgcagcg tcgcgttctg ccgccgcgcg 33180 
agcgccttca gtttcgcagt cagcgcgggt tcgattcgga acgagtgaga gtttccccgg 33240 
aaactctgca ccggcggact gggacgatcc gacgggagat tcagaaccgg aagctggccg 3 3300 
gaaagctgcg aggaccagta gttccaaagc cgctcgccct cggttccggc caacagttcg 33360 
ttctgccagc ggacgaaagc ggcgaagctc gcgaccggcg gcgcgacagg cggaccgcca 33420 
gctgtcctcg cgaggtagat actgcggagt tcatccacca tcaccagcag tgaccagaag 33480 
tcggcgagga tgtgatgcac cacgatggcc agaacctgat ccttccccga ctgcaccagg 33540 
agacgcgagc ggaaacagtt ttcgccgaga ttgaagggcg cgtggaagac gccgtcgatc 33600 
agcaccgcct catcgtccgg cgaacacggg atcacttcga aatccaccgg gacgctgctg 33660 
tggaccgttt gaacgggtgc gccgccactc tccgcaatcg tcgttcgcag cgccggatga 3 3 720 
cgatccacca ggtcctgcag cgaacggcgc aacgcctgcg gatcgaaagc gcctctcgcg 33780 
cgcgcgatcc acgcgatgtt gtatgcggga ctttccggcg cgcttcggta aataaaccaa 33840 
agcgcctgct ggccggcgct gagagggtag gagagggcag gaaccgaggc ctgcgccgca 3 3 900 
ggttccggcg ccaccgtcgt gcgttcgctg aggccgctta gatcgcttag atccctggcc 33 960 
agttccgcaa cgctggggcc gtctagaaat cggaccatgg gcagcaagac gcgcagatcc 34020 
gtatcgatcc ggttgcgtaa ttgcaccgcc atgagcgagt ccaatcccat acgcaccagc 34 080 
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ggctgctgta agtccaccgc cgattccggg cactgcagtt tttttttttt tttttttttt 34140 

tttttttttt tttttttttt tttttttttt tttttttttt ttttaatgcg gtagtttatc 34200 

acagttaaat tgctaacgca gtcaggcacc gtgtatgaaa tctaacaatg cgctcatcgt 34260 

catcctcggc accgtcaccc tggatgctgt aggcataggc ttggttatgc cggtactgcc 34320 

gggcctcttg cgggatgatc cctgtcagtc atgcgggcaa cttagccgag ccctacgaca 34380 

ccgcccgtgg gaaggtgagt gtctaactgc gtgacaacgc cagcgcacag cggcggacaa 34440 

ccgcgagcac ccatggactg gcgccgcagg tgagaagcac actggcccaa ggtcgagcgc 34 500 

ccacccaagt tgcttcggga cgaagaggtc gtgggttcaa atcccgccac cccgacagag 34560 

aaacaccagg tgaggcagac cgtaacgtta cggtctgcct cacctgtttt ctgtgcgtgt 34620 

ctatctgcgt gactatcgcg ccggaccccg cttgaagatg ccgtccatga ccacagcgcc 34680 

ggtctggatg acgggccgga tctgcttccg gtagacctcc tcagtcacgg ccgtaccgga 3474 0 

gtgtccgacg agccgggaga tctcctccag cgggacgccg cggtcggaca gcagggacac 34800 

gaagctgtgc ctcagctccc tcggtgtcca ctcgtcggcg ttgatcccgt tggcatcctt 34860 

gagcgcctgg cggaaggcgc gccggacgtt agtcgcgtcg agcggcttgc caacggccga 34920 

cgagaagacc aggccgtgtt cctcccactt gtcaccggcg gcgagccgtt cccagccctg 34980 

gtcctcaaag tgctgccaga ggacctccac gcaacgcgcc ggcagggcga gcgttcgccg 35040 

agacttccgg gttttcgtgt ccccaccgcg ccggaccgag cgccagacgg cgatgtgcgg 35100 

aggctgcggc ggctcaacgt ccggacttcc cttgaggaag acgtggtccc aggtcagcgc 35160 

ccgcagctcc tcggtgcgcg caccggtcag cagggcgacg acgatgtagg cgtgcatcga 35220 

cgtgccctcg gcagcattca gcaccgcctc ggcctgggcg aaggtgagcg ccttggacgg 35280 

ccggccaggc tggccctggg gcacagagca cagctccacc acgttgcgct tcaccttgtc 35340 

acgcgccatg gcccgcttga ccgcccggtt caggcaggag tggaccgcct gaaggctgcg 35400 

cgtgctcaga gtctgagcct tggcggccag ccagcggtcg acgtcctctg cgctgaggtc 35460 

acgcagcttc cgggcaccca aacccggtat gacgtgcttc tggcttaggt gggtgcagtt 35520 

ctcgacggtg cgctggtcac ggccagcgag accgtaggca agccagtcgt tcaccgcgtc 35580 

ggcgacggtg taccccgtgg gtgcgatcgc gagaccgtct tcgtggtcac gcagaacctc 35640 

tttgagcttg ttcttagcct ccgtcttggt cttgccactc ccccgcttga cgatccgctt 35700 

accgctcgga tcgaagccga ggttcgccgt ggcgatccag cgctgtctct tctcgtccca 35760 

gtggaggccg ccgtcacccc ggctacgtcg cttggccatg gatcgatccc ctgcccggca 35820 

aaatagagtg ttcctctgcc ctctttagca ttcagtgtat ccattaccgt catcaattgc 35880 

tcactcccgg ggcgcggtgc gttgtcatcg aataaattga gctgcgcgac tccctgactg 35940 

aagaaatccc ccagcatcac gcccgctttt tggtaacgat ggcccgcttg ccagatggca 36000 

tccagagatc gcgtagcagc gttaatgata tccctgctgt cctgagtggg cgtcagcagt 36060 

tttaccgacg cgctattgcc gtaataaggt tcattgagcg caaatggtga cgtcttaata 36120 

aacgtggaga taaaccgaca atattgatgc tcgctgcgaa gtttttccgc cgcccgggca 36180 

gcgtaactac aaatggcctg ccgcatcgac ggataatccg tgatgcgttc accaaacgag 36240 

cgggaacaga taatttcctg cttcgtcggt gcaaactctt ccagttgcaa acagggttcg 363 00 

ccgcgcagtt cacgcaccgt tctttcgagc acgacattaa aatgtttacg gataaaccgg 36360 

atatctgtat ccgccaaatc gagaacggtt ttgatcccca tcgcgtccag ttttttgctg 36420 

atccgccgtc caatccccca gacgtcatcc acggggagag cagacattaa tttacgctgg 36480 

cgttccagat ttgataaatc caccacccca cccgtctgcc gctgccattt ttttgccgca 36540 

tgattggcaa gctagcttta tgcttgtaaa ccgttttgtg aaaaaatttt taaaataaaa 36600 

aaggggacct ctagggtccc caattaatta gtaatataat ctattaaagg tcattcaaaa 36660 

ggtcatccac cggatcagct tagtaaagcc ctcgctagat tttaatgcgg atgttgcgat 36720 

tacttcgcca actattgcga taacaagaaa aagccagcct ttcatgatat atctcccaat 36780 

ttgtgtaggg cttattatgc acgcttaaaa ataataaaag cagacttgac ctgatagttt 36840 

ggctgtgagc aattatgtgc ttagtgcatc taacgcttga gttaagccgc gccgcgaagc 36900 

ggcgtcggct tgaacgaatt gttagacatt atttgccgac taccttggtg atctcgcctt 36960 

tcacgtagtg gacaaattct tccaactgat ctgcgcggat cgatccttgc cgagctggga 37020 

tggaagcccg gccgacccac cctggaggag atgatcgagg atgccagggc ctttcacgcc 37080 
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cgccgctgct gagcgtccgc cgccgggccc gcaccgccgt cggccggccc gctccgggct 37140 
cgcagcagcg ggcttcggcg cgggcccggg gctcccgggc cgccgggcgg ggctccgccc 37200 
ggcggccgcc gggggccggg ggcggcgccg ggcggcccgg ggcgtcaggc gccgggggcg 37260 
gtgtccggcg gcccccagag gaactgcgcc agttcctccg gatcggtgaa gccggagaga 37320 
tccagcgggg tctcctcgaa cacctcgaag tcgtgcagga aggtgaaggc gagcagttcg 37380 
cgggcgaagt nctcggtccg cttccactgc gccccgtcga gcagcgcggc caggatctcg 37440 
cggtcgcccc ggaaggcgtt gagatgcagt tgcaccaggc tgtagcggga gtctcccgca 37500 
tagacgtcgg tgaagtcgac gatcccggtg acctcggtcg cggccaggtc cacgaagatg 3 7560 
ttggtcccgt gcaggtcgcc gtggacgaac cggggttcgc ggccggccag cagcgtgtcc 37620 
acgtccggca gccagtcctc caggcggtcc agcagccggg gcgagaggta gccccacccg 3 7680 
cggtggtcct cgacggtcgc cgcgcggcgt tcccgcagca gttccgggaa gacctcggaa 37740 
tggggggtga gcacggtgtt cccggtcagc ggcaccctgt gcagccggcc gagcacccgg 37800 
ccgagttcgc gggccagggc gagcagcgcg ttccggtcgg tcgtgccgtc catcgcggac 3 7860 
cgccaggtgg tgccggtcat ccggctcatc accaggtagg gccacggcca ggctccggtg 3 7920 
ccgggccgca gctcgccgcg gccgaggagg cggggcaccg gcaccggggc gtccgccagg 37980 
accgcgtacg cctccgactc cgacgcgagg ctctccggac cgcaccagtg ctcgccgaac 3 8040 
agcttgatca ccgggccggg ctcgccgacc agtacggggt tggtgctctc gccgggcacc 3 8100 
cgcagcaccg gcggcaccgg cagcccgagc tcctccaggg ctcggcgggc cagcggctcc 38160 
cagaattcct ggtcgttccg caggctcgcg taggaatcat ccgaatcaat acggtcgaga 38220 
agtaacaggg attcttgtgt cacagcggac ctctattcac agggtacggg ccggcttaat 38280 
tccgcacggc cggtcgcgac acggcctgtc cgcaccgcgg atcaggcgtt gacgatgacg 38340 
ggctggtcgg ccacgtcggg gacgttctcg gtggtgctgc ggtcgggatc gccaatctct 38400 
acgggccgac cgaggcgacg gtgtacgcca cagcttggcg taatcatggt catagctgtt 38460 
tcctgtgtga aattgttatc cgctcacaat tccacacaac atacgagccg gaagcataaa 38520 
gtgtaaagcc tggggtgcct aatgagtgag ctaactcaca ttacggatca gtgagggttt 38580 
gcaactgcgg gtcaaggatc tggatttcga tcacggcacg atcatcgtgc gggagggcaa 38640 
gggctccaag gatcgggcct tgatgttacc cgagagcttg gcacccagcc tgcgcgagca 38700 
ggggaattga tccggtggat gaccttttga atgaccttta atagattata ttactaatta 38760 
attggggacc ctagaggtcc ccttttttat tttaaaaatt ttttcacaaa acggtttaca 38820 
agcataaagc tatcgtccat tccgacagca tcgccagtca ctatggcgtg ctgctagcgc 38880 
tatatgcgtt gatgcaattt ctatgcgcac ccgttctcgg agcactgtcc gaccgctttg 38940 
gccgccgccc agtcctgctc gcttcgctac ttggagccac tatcgactac gcgatcatgg 39000 
cgaccacacc cgtcctgtgg atctgcctcg ctggcctgcc gcagttcttc aacctcccgg 39060 
cgcagctttt cgttctcaat ttcagcatcc ctttcggcat accattttat gacggcggca 39120 
gagtcataaa gcacctcatt acccttgcca ccgcctcgca gaacgggcat tccctgttcc 39180 
tgccagttct gaatggtacg gatactcgca ccgaaaatgt cagccagctg ctttttgttg 39240 
acttccattg ttcattccac ggacaaaaac agagaaagga aacgacagag gccaaaaagc 39300 
tcgctttcag cacctgtcgt ttcctttctt ttcagagggt attttaaata aaaacattaa 39360 
gttatgacga agaagaacgg aaacgcctta aaccggaaaa ttttcataaa tagcgaaaac 3 9420 
ccgcgaggtc gccgccccgt aacaaggcgg atcgccggaa aggacccgca aatgataata 3 9480 
attatcaatt gcatactatc gacggcactg ctgccagata acaccaccgg ggaaacattc 39540 
catcatgatg gccgtgcgga cataggaagc cagttcatcc atcgctttct tgtctgctgc 39600 
catttgcttt gtgacatcca gcgccgcaca ttcagcagcg tttttcagcg cgttttcgat 39660 
caacgtttca atgttggtat caacaccagg tttaactttg aacttatcgg cactgacggt 39720 
taccttgttc tgcgctggct catcacgctg gataccaagg ctgatgttgt agatattggt 39780 
caccggctga ggtgtttcga ttgccgctgc gtggatagca ccatttgcga tagcggcgtc 39840 
cttgatgaat gacactccat tgcgaataag ttcgaaggag acggtgtcac gaatgcgctg 3 9900 
gtccagctcg tcgattgcct tttgtgcagc agaggtatca atctcaacgc caagcgtcat 39960 
cgaagcgcaa tattgctgct caccaaaacg cgtattgacc aggtgttcaa cggcaaattt 40020 
ctgcccttct gatgtcagaa aggtaaagtg attttctttc tggtattcag ttgctgtgtg 40080 
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tctggtttca gcaaaaccaa gctcgcgcaa ttcggctgtg ccagatttag aaggcagatc 40140 
accagacagc aacgcgccac ggaaaaacag cgcatacaga acatccgtcg ccgcgccgga 40200 
caacgtgata attttatgac ccatgattta tttcctttta gacgtgagcc tgtcgcacag 40260 
caaagccgcc gaaagttaac ttgtttattg cagcttataa tggttacaaa taaagcaata 40320 
gcatcacaaa tttcacaaat aaagcatttt tttcactgca ttctagttgt ggtttgtcca 40380 
aactcatcaa tgtatcttat catgtctgga tctgacgggt gcgcatgatc gtgctcctgt 40440 
cgttgaggac ccggctaggc tggcggggtt gccttactgg ttagcagaat gaatcaccga 40500 
tacgcgagcg aacgtgaagc gactgctgct gcaaaacgtc tgcgacctga gcaacaacat 40560 
gaatggtctt cggtttccgt: gtttcgtaaa gtctggaaac gcggaagtca gcgctcttcc 40620 
gcttcctcgc tcactgactc gctgcgctcg gtcgttcggc tgcggcgagc ggtatcagct 40680 
cactcaaagg cggtaatacg gttatccaca gaatcagggg ataacgcagg aaagaacatg 40740 
tgagcaaaag gccagcaaaa ggccaggaac cgtaaaaagg ccgcgttgct ggcgtttttc 40800 
cataggctcc gcccccctga cgagcatcac aaaaatcgac gctcaagtca gaggtggcga 40860 
aacccgacag gactataaag ataccaggcg tttccccctg gaagctccct cgtgcgctct 40920 
cctgttccga ccctgccgct taccggatac ctgtccgcct ttctcccttc gggaagcgtg 40980 
gcgctttctc atagctcacg ctgtaggtat ctcagttcgg tgtaggtcgt tcgctccaag 41040 
ctgggctgtg tgcacgaacc ccccgttcag cccgaccgct gcgccttatc cggtaactat 41100 
cgtcttgagt ccaacccggt aagacacgac ttatcgccac tggcagcagc cactggtaac 41160 
aggattagca gagcgaggta tgtaggcggt gctacagagt tcttgaagtg gtggcctaac 4122 0 
tacggctaca ctagaaggac agtatttggt atctgcgctc tgctgaagcc agttaccttc 41280 
ggaaaaagag ttggtagctc ttgatccggc aaacaaacca ccgctggtag cggtggtttt 41340 
tttgtttgca agcagcagat tacgcgcaga aaaaaaggat ctcaagaaga tcctttgatc 41400 
ttttctacgg ggtctgacgc tcagtggaac gaaaactcac gttaagggat tttggtcatg 41460 
agattatcaa aaaggatctt cacctagatc cttttaaatt aaaaatgaag ttttaaatca 41520 
atctaaagta tatatgagta aacttggtct gacagttacc aatgcttaat cagtgaggca 41580 
cctatctcag cgatctgtct atttcgttca tccatagttg cctgactccc cgtcgtgtag 41640 
ataactacga tacgggaggg cttaccatct ggccccagtg ctgcaatgat accgcgagac 41700 
ccacgctcac cggctccaga tttatcagca ataaaccagc cagccggaag ggccgagcgc 41760 
agaagtggtc ctgcaacttt atccgcctcc atccagtcta ttaattgttg ccgggaagct 41820 
agagtaagta gttcgccagt taatagtttg cgcaacgttg ttgccattgc tgcaggcatc 41880 
gtggtgtcac gctcgtcgtt tggtatggct tcattcagct ccggttccca acgatcaagg 41940 
cgagttacat gatcccccat gttgtgcaaa aaagcggtta gctccttcgg tcctccgatc 42000 
gttgtcagaa gtaagttggc cgcagtgtta tcactcatgg ttatggcagc actgcataat 42060 
tctcttactg tcatgccatc cgtaagatgc ttttctgtga ctggtgagta ctcaaccaag 42120 
tcattctgag aatagtgtat gcggcgaccg agttgctctt gcccggcgtc aacacgggat 42180 
aataccgcgc cacatagcag aactttaaaa gtgctcatca ttggaaaacg ttcttcgggg 42240 
cgaaaactct caaggatctt accgctgttg agatccagtt cgatgtaacc cactcgtgca 42300 
cccaactgat cttcagcatc ttttactttc accagcgttt ctgggtgagc aaaaacagga 42360 
aggcaaaatg ccgcaaaaaa gggaataagg gcgacacgga aatgttgaat actcatactc 4 242 0 
ttcctttttc aatattattg aagcatttat cagggttatt gtctcatgag cggatacata 42480 
tttgaatgta tttagaaaaa taaacaaata ggggttccgc gcacatttcc ccgaaaagtg 42540 
ccacctgacg tctaagaaac cattattatc atgacattaa cctataaaaa taggcgtatc 42600 
acgaggccct ttcgtcttca agaattcgcg gccgcaatta accctcacta aagggatccc 42660 
tatagtgagt cgtattatgc ggccgcgaat tctcatgttt gaccgcttat catcgat 42717 
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<220> 

<223> Description de la sequence artif icielle : insert 
d'ADN du cosmide a26Gl - brin codant 

<400> 114 

actgcagtgc ccggaatcgg cggtggactt acagcagccg ctggtgcgta tgggattgga 60 
ctcgctcatg gcggtgcaat tacgcaaccg gatcgatacg gatctgcgcg tcttgctgcc 120 
catggtccga tttctagacg gccccagcgt tgcggaactg gccagggatc taagcgatct 180 
aagcggcctc agcgaacgca cgacggtggc gccggaacct gcggcgcagg cctcggttcc 240 
tgccctctcc taccctctca gcgccggcca gcaggcgctt tggtttattt accgaagcgc 300 
gccggaaagt cccgcataca acatcgcgtg gatcgcgcgc gcgagaggcg ctttcgatcc 360 
gcaggcgttg cgccgttcgc tgcaggacct ggtggatcgt catccggcgc tgcgaacgac 420 
gattgcggag agtggcggcg cacccgttca aacggtccac agcagcgtcc cggtggattt 480 
cgaagtgatc ccgtgttcgc cggacgatga ggcggtgctg atcgacggcg tcttccacgc 540 
gcccttcaat ctcggcgaaa actgtttccg ctcgcgtctc ctggtgcagt cggggaagga 600 
tcaggttctg gccatcgtgg tgcatcacat cctcgccgac ttctggtcac tgctggtgat 660 
ggtggatgaa ctccgcagta tctacctcgc gaggacagct ggcggtccgc ctgtcgcgcc 720 
gccggtcgcg agcttcgccg ctttcgtccg ctggcagaac gaactgttgg ccggaaccga 780 
gggcgagcgg ctttggaact actggtcctc gcagctttcc ggccagcttc cggttctgaa 840 
tctcccgtcg gatcgtccca gtccgccggt gcagagtttc cggggaaact ctcactcgtt 900 
ccgaatcgaa cccgcgctga ctgcgaaact gaaggcgctc gcgcggcggc agaacgcgac 960 
gctgcatgcg acgctgatgg cggcgtttca agtgcttctc tcccgttgga cctcacaaga 1020 
agagatcctg accggcaccc tcaccaacgg tcggacgcaa ccggaattcg ccgatctcgt 1080 
cggatacttc gtgaatcccg taatcctgcg aggagaactt tcaggcgatc cggatttcaa 1140 
tacggtgctc gcccggattc ggcaaacgct tctcggcgcg atcgagcacc aggagtaccc 1200 
gtatgcccgg atcgtggagc ggttgggtcc cggactgcgg gttctattcg tgctccagca 1260 
gcctcatcgc attcccgaat ccgtgccgtt catgttgggt cagtccggcg gtcgcatggc 1320 
ctggggcagc ctcacactgg agtccctggc gatgccgctg cgacagagcc ggtttgacct 1380 
ggatctgatg atggtcgaaa ccgatggagg cctctccgcc tttctgcaat acaacacgga 1440 
catttttgat gctgccacga ttgaacgtct ctccttgcac ttcgccgtgc tgctggaagg 1500 
aatcgcggag aatcccgcct gtccagttgt cgatctaccg ctgctgacaa cccgggaacg 1560 
catccagctg ctcgaagagt ggaatgcgac cgccgcggaa ttcccgtccc aatgcgtgca 1620 
cgagctgttc gaagctcagg tggagttgac gcccgacgcc atcgcgttga gcttcggtga 1680 
gcagaatctg acatatcgcg aactcaacgg gagcgccaac cggatcgcgc actatctccg 174 0 
ctcgcgcggc gctggacccg gcgaaatggt tggcatccat gtcacgcggt cgctcgaaac 1800 
cgtcgcaggg ctgttgggcg tcctgaaggc cggcgcggcc tacgttccgc tggaaccgga 1860 
atatccggcg caacgtcttc ggctgatgct ggaagagacc aggccggtcg ttgtgctgaa 192 0 
tgtcacggaa tcggaagtat ggacgcagcc cgacaccaat ccgaacccgc tcgcgactcc 1980 
cgccgatctc gcctatgtcc tgtacacctc cggttcgacc ggccggccga aaggcgtgca 2040 
aatcacacac caggccgtcg tcaattttct ttcgtcgatg cggcatgagc cgggcatcag 2100 
cgaccgcgat acgctgctcg ccctcacgac gttcatgttc gacatttccg cgctcgagat 2160 
ctttttgccc ttgagcgccg gcgcgcgcgt cgtggtggcg aaccaggaga cggccgtcga 2220 
tggtgagagg ctggcgaggg aactcgcgcg cagcaaagcg acaatgatgc aggcaactcc 2280 
cgccacctgg cgtctgctgc tcgcatccgg ctggcccggc gaccgccgcc tgacggcgct 234 0 
ctgcggcggt gaagcccttc ctcgcgatct tgccgaccgg ctcctgcaac gaaccgcggc 2400 
gctatggaat ctttacggac ctaccgaaac gacaatttgg tccgccatcc aacgggtgac 2460 
gacaggtgac ggaccggttt cgattggccg ccccatcgca aacactcagc tctatgtgct 2520 
tgacgatcgg atgcagcccg cacccatcgg tgttgcgggc gaactgtaca tcggcggcgc 2580 
cgggctcgcc cgtggatacc tgaatcgtcc ggaactcagc gcggacaagt tcgtcgccaa 264 0 
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ttcgttcgac cctcatggca ctcggctgta 
cgacggcgcg ctcgagtatc tcggccggat 
catcgaaacc ggcgagatcg aggccgcggt 
ggtcaccgcc agagaaaatg acgcggccgg 
tgctgacggg catcgcgcga cggcagccgc 
gcacgtgacg cagtggcaat ccgtctggga 
ggatccggag ttcaacatcg tcggctggag 
tgccgagatg cgggagtggg tgcaggattc 
tcgcgtgctc gagattggct gtggtacggg 
ttcggagtac tgggccacgg acttttcgca 
ggaccgcacc ggcctggcaa atgtccgcac 
gatcgacagt cgctcgtgcg atgcggttgt 
cgaagcgtat ctgcggcgcg tgctggccga 
cgtatttgtc ggcgatgtcc gcagtctccc 
agttcagcgc gcacccgcgt cgttgacccg 
cgcgtcgcag gaagaggaac tcgtggtcga 
gattccggag atcggccgga ttgaaatcct 
gacccgcttc cgctaccagg cgatcctgca 
atcggatcgc aggcgttgcc agaccgcggc 
gccggagttg gccgcattta ccgagattcc 
tgtgacctgg atgaacggtg acgaagctcc 
gcgccagacg tcgccttccg gcgtcgatcc 
gccgtaccgc gtggcaatcg actggagcag 
cttctgccgt gcggcggccg gtccgccggc 
gtatacgaac gatccgctgc gagccgtcta 
tcatctgaag gagaagctgc ccgactacat 
aatgccgctg acgcccaacg gaaaaatcga 
ccggcgagcc cacgccgaag cattcacgcc 
ccacatttgg ggcgaggtgc tcggcatgga 
ctctggagga cattcgctgc tggtcacgca 
cgtggaagtg ccctttcgaa ccgtgtttaa 
tattcaggac ggcgtagacc caggatgggc 
ttcccaaatg tcagatgttc aaatcgagcg 
cagcgggttg taatgcagaa ttcgtcgcca 
caattgctcg accgtctgct gcaggaaaac 
aaccgggatg ccgcaccctt gtcgctggcc 
gacccggatt ctcccgccta caacattccc 
attcgcgtcc tcctgcggag tctggaggcc 
tgcattggcg gtgtggatgg agaggcgcgc 
cttccggttg ttcaggctga cggaatcgca 
cagatcccgt tcgacctgcg aaaacccccg 
gacaagcagc agattctcct gctgacgttg 
gagacgttcg tccgcgacct gacgcgatcg 
ccgctcatgg aactgccgat tcagtatggc 
aaccaaaccg cgcagcagta ctggaagaaa 
cttcctaccg atcgcccccg gcccgcgcag 
gccctcggcc gtgatttgac cgatggactc 
gtgttcatga cggcaatcgc ggcgtttcag 
gacatcctta tcggggttcc agtcgcgggc 
ggttgtttcg ccaacatgat cgtcctgcgc 



tcgcacggga gatctcgccc gccgccaacg 2700 
cgaccaccag gtgaagatac gcgggttccg 2760 
ccgcagtcac ccggcggtcc gacatgctgt 2820 
taagtatctg gcggcctaca ttgtccccct 2880 
cgacacattc cacgaccgag tcgagtccga 2940 
caccacatat gaacagaatg cgccgaacgc 3000 
aagcagtgtt accggagagc cgattccagc 3060 
cgtcgatcgc atcctggcct cgcggccgcg 3120 
actgctgctc ttccgcgtcg ctccccactg 3180 
gaaggcgctg gactacatcg ccgctcacgc 3240 
gttccggcag gcggccgacg acgcgtgcga 3300 
tctgaactcc gttatccagt acttccccgg 3360 
ggcggtgcgt gtggtcaaac cgggcggcat 3420 
gctgctggag acgttttacg cttctttaga 3480 
gaatgagttt cggcaacgcg tgcgttcgct 3 54 0 
tcccgcgttc ttctttgctc tccgcgaaca 3600 
gccgcgtcgc ggccggtcgc ataacgagct 3660 
tatcggatcg cgggaagcgg aggagccgga 3 72 0 
cgaaatacgc agagtactga cggacgctca 3780 
gaacgcacgg ttgaccgccg aaagcgccat 3840 
agagacactc ggggagttgc gggaccggct 3 900 
cgccgatcta tggcgtatgg acgaagacct 3960 
tcatgggcca cacggacgct tcgacgcgac 4020 
ttcccgtccg cgacgccgcc tggccggccc 4080 
tacgcgcacg gttgtgccgc agttgcgtac 4140 
gatcccgacc gcgtgggtcg tgctccacga 4200 
ccgtaacgcc ctgcccgatc ccgagcccag 4260 
tccggaaact ccggtggaac aggtactcgc 4320 
tggcatcggc gtccatgatc acttcttcga 4380 
gatgatcgcc cgcgtgcgcg acatgctcca 4440 
cgcccccacg gttcgaggct tcgccgtcgc 4500 
aaggcgagcc gccgatttgc tgatcgctgt 4560 
tatgatgagc gccgcccaag actaggaaca 462 0 
aataccatag acctctcgct cgcccgccgc 4680 
agccccgaac atcgcatccc gcggcgtgaa 4740 
cagcagcggc tttggtttct ccatcagctc 4800 
atagcgctgc atatccgagg tccgctggat 4860 
gtggtgcagc ggcacgagag cctgcgcagc 4 920 
cagagcctcc tggcgcgagt gacactggaa 4980 
gaagcgcggc aaatggcctt gcgtgatgcc 5040 
cttctgcgga ccaagctgat ctgcctcgat 5100 
agccacatca tcgcggatgc gtggtcggtc 5160 
tacgaagcgt tcgtgcaggg gcggccatcg 522 0 
gactgggccg tccatcagca gacgtcgctg 5280 
cagctgtcgg gcaccttgcc tttcctcgac 5340 
cagacctggc ggggcgccgt ggagaccaca 54 00 
cacgcgtttg ccttgcgtga aggagcgacg 5460 
gtgctgctgc atcgctatac cgcgcaggaa 5520 
cgtacacaac gagaaacgga aggtctcgtc 5580 
ggcgatctgc gcgacgatcc gtcgtttcgc 5640 
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agtcttctcg cccgcacccg cgacaccgct 
ttcgaacgcc tggttgagga actgcatcct 
caggtctcct tcgcgctgct gcccgatgcg 
atctcgcgcg agtacatgca caacggcgga 
ccatccggcg atggactgat ggcgtccgcc 
accatcgcct ccctgctcga tgcgtaccga 
gacgtccgca tttcaaccgc tgcgctgttg 
cagcacaatg cgacacggcg cgatgccggt 
gctcaggcgg aacgcactcc gcacgccgtc 
tacgccgagc tgaatgcgcg ggccaaccgc 
ggcccgggaa agatcatcgc tctggcgatg 
cttgcgattc tgaagtccgg cagcgcgtac 
cgtctcgccc ggattctcga tgaagtgcaa 
gctgagatga tggcgatgat ggcgatgatg 
ctcgtcagcg gcagcaagcc cgacgatctc 
gggcgaccga agggcgtgga gatccgccac 
cagcgcgagc cgggtctgac agccgccgat 
gatattgccg gactggagat ctggctgccg 
acccgcgaga tcgtggttga cggcgagcgg 
acggtcatgc aggcgacccc gagcggttgg 
ggtaaaggct tccgtgt ttt ctgcggcggt 
attctcgata gtggcgtaga gctgtggaat 
tcggccgtgc acaagacaca aagactgggt 
cccatcgaca acacgcagtt atacatcctg 
gttccgggag agctgtacat cggaggagcg 
gagctcacgc gtgagaaatt ccgcgagtgg 
gatctggctc gctaccgttc cgacggcgca 
atcaagctgc gcgggtttcg catcgaaccg 
attgccgtga agcaggcgat tacggtcgtg 
ccggcaacgg gcgacgtgcg cgatctgcag 
cttcccgatt acatgatccc ctcggcgttt 
aacggcaaaa tcgacgcgaa cgcgcttccc 
gagccgatgc gcggcgatgt ggtggagacg 
gtggagcacg tcgactatcg gcagaacttc 
acacgggtgc gcggactgct cgaggagcgc 
ttccggcata cgacgatcga gtcgcttgcc 
gcggaacctg cggctgcggt cgcagaagat 
ttcccggggg cgcgcaatgt ggaggagttc 
atcgccaggc tttcgccgga agatctgctg 
gacccgagct acgtgccggc caagggtctg 
ttcttcggct acagtccgcg cgaagcggag 
gagtgcgcgt gggaagcgat ggagaacgcg 
atcggcgttt tcgcgggatg cggcgtcaat 
gagccgttcg atttctcacg cccctccgcg 
ttcctggcca cgcgtgtctc ttacaagctg 
acggcgtgct ccacctcgct ggtgtcggtg 
gcctcggaca ttgccttggc cgggggagtt 
ctgcaccagc cgggcatgat cctgtcgccc 
gctcaaggca cggtgccggg caacggcgcg 
gctctggccg atggcgacac gatctacgcc 



ttgagcgccc tctctcatca ggactttcct 5700 
ccgcgggacc tgagccggtc gcctgtattt 5760 
ccggccatca ccgtcatgcc tgggctcacc 5820 
tccaaactcg acctcggcgt gaccctcgag 5880 
gaatacaaca ccgatttgtt cgatgcggca 5940 
accctgctgg cgagcgtggt gacggatccc 6000 
tcccccgcgg tccgaagccg gatgctcgag 6060 
ccgaacgggt gtgcgcatga actggtcgaa 6120 
gccgttgtct tcgaagacca tcagttgacc 6180 
ctggctcatc gtctgagcgc atccggcgcg 6240 
gagcgctcgc tggagatggt gattgcgctg 6300 
ctgcctctcg atcccgcgca ccccaaggat 6360 
ccgcacgcgg tcctcacgca ggaggcggtg 6420 
gcggtcgccg tcgaaccaga agctgcgaat 6480 
gcctacatca tatatacctc cggatcgacg 6540 
tcgtcgctag tcaatctgct gcgctccatg 6600 
gggctggtcg ccgtcaccac cgtgtcattc 6660 
ttgatcaccg gcgcccgcgt catcgtcgcc 6720 
ctcaccaccc tgctggataa gtcgggcgct 6780 
cggcaattgc tggattcggg ctggaagccg 6840 
gaagctctgc cgccggaact ggcgcgccgc 6900 
ctttacggac cgacggagac caccatatgg 6960 
gcctccgata gcatcgtgcc gatcggccat 7020 
gattcgcgca tggagccggt tccccccgga 7080 
ggactggcgc ggggctatca tcgcaacccc 714 0 
cgtgatcgag gacgcattta ctctaccggc 7200 
gtcgagtgcc tgggacgagt cgatcgccag 7260 
gccgagattg aggccgcgat cgagacgcac 7320 
aaggacgatc ggctgatcgc ctatctcgtt 7380 
agcgatttgc ggtcgtggct ggcaacgcgc 7440 
gtcagcctgt cctcccttcc gctgacgccc 7500 
ggtttgccca caacgccggt tgctgctcgc 7560 
attgcgtcca tctggcgtga agttctgcgc 7620 
tttgatgtcg gcgggcactc gctaatgctc 7680 
ctggggttga cgctctccgt cgtcgatctg 7740 
ggcctggcag aaaaatccga acccgccgct 7800 
cggatcgcag ttatcgggat ggccggccgg 7860 
tggcgcaatc tgcgcgacgg tgtggattcc 792 0 
gcgggcggca tcagcccgga ggtcttccag 7980 
ctggacggca tcgagttttt cgatgccgcg 8040 
atcatggacc cgcagcatcg cgtgtttctc 8100 
ggatatgcgg cgcgaagcta taagggttcg 8160 
acctacctgc tgaacaacct cgccaccgcg 8220 
taccagctgc tgacggccaa cgacaaggat 8280 
aacctccgcg ggcccagcct gacggttcag 834 0 
gtgatggcat gcgagagctt gcagcgcggc 84 0 0 
gccatcaatg ttccgcagtc cgtggggtac 8460 
gacgggcgct gccgcgcctt cgatgagtcc 8520 
ggtgtggtcg tcctcaagcg cttgagccgc 8580 
gtcattcgcg gagcggctat taataatgat 8640 
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ggcgccgagc gcatggggtt taccgctcca ggtgtggacg gtcagacgcg attgattcgg 8700 
cgcactcaag agatggcggg cgtgaagccg gagtccatcg gctacatcga ggcccacgga 8760 
acagccacgc cgctcggcga tccggtggag atcgccgcca tcgctgccaa ctttccgaaa 8820 
aacggaagcg gcgatgtgta tatcggatcc gtcaagacca acatcggtca tctagacgtc 8880 
gcggccggtg tggccgggct gatcaagacg gtgcttgccg tccatcgcgg ccagattcct 8940 
cccagcctga atttccagcg tccgaatccg cgaattgatt tcgcaaacac tccgtttcgt 9000 
gtgagtacgc ggctgctcga ctggcccgcc ggaaagaccc cgagacgagc ggcagtcagt 9060 
tcgttcggga tcggcggcac caacgctcac gtgattctgg agcaagcgcc gccggtgacg 9120 
ccggccgcag ctgcgcccga acgatccgca catgtgcttt gcctgtccgc caatacagac 9180 
gcggccctcg aagaactggt gcgctcgtat cgcggccata tggacaacca gcccggtttg 9240 
tcgttcggcg atgtcgcatt cacggccaat gcagggcgcg tgcacttccc gcaccgtatc 9300 
tgcattgtgg cccggtcgag cgacgaggct cgccaacgac tgacggaggc acgacgggtt 9360 
cgcatcgccc agacgcgccc caagattgcg tttcttttca ccgggcaagg tgcgcaatac 9420 
gcgggcatgg gccgccagtt ctacgagtcg cagccggtgt ttcgcgccgc catggatgaa 9480 
tgcgcagctc tgctgaatgg acggctcgat ctgccggcgc tgttggccga tgacgcgttg 9540 
ctcgacgcga ccgccggcgc gcagcccgcg ctgtttgctt tgcagtgggc cttggcgcag 9600 
ttgtggaagt cctggggtgt gacgcccgac ctggtgatgg gacacagcgt cggcgaatac 9660 
gcggcggcgt gtattgccgg cgccgtcagc ctgccggatg cgctcggctt agttgccgaa 9720 
cgcggccggc tcatgcagaa cctgccggaa ggtgcgatgg ctgcggtcag cgccggcgag 97 8 0 
cagcgctgtg ccgcagcgat cacctcgcgc gtctccattg cggccatcaa cggacccgct 9840 
gaggtcgtga tttcgggtgc gccgcaggat attgagagcg cgctggcaac tctacgtgcg 9900 
gagggcatca aaacgcagat gctggccgtt gcgcgcgcct ttcacagctc gagcatggat 9960 
ccgattctgg cggacctgca acgccgggcg gcggcgatcg cgtggcgcaa tccttcgatc 10020 
ggcttggttt cgaacctcac gggcaaactg gccggcgagg gacagctggc gaatccgctg 10 08 0 
tactggcgag atcacgctcg aaaccctgtc cgtttcgccg acggtatcca aacgctcaag 10140 
gacgaaggct gcgacgtgtt tctcgagatc ggtcctaagc cggttctact cggcatgggc 10200 
caaaagtgcc tgcccgacga cgccaagcag tggctgccgt cgctgcgtaa aggccgcgat 10260 
gagtgggaga cgattctcag cagtgtggcg acgctatatc agggtgggtt cgacatcgat 10320 
tggcaggagt tcgaccgtcc gtattcgcga aggcgtgtcg ccctgccggc ctatcctttc 10380 
gagagacgcc gccattggat cgagcggagt tccagaccgg aacctgtagc ggttgcgagt 1044 0 
ggtctcgtcg ggtgccggct gtcgctaccg gtggcagacg ttatcttcga gtcgaaacta 10500 
tcgacggctt cgcctctact ctcagaccac cgatattacg gttcggtggt ggccccggcc 10560 
gtgtacttcc tggccatggc gctcgaggcg tcggcggagg tgtttggcgc cggccggcac 1062 0 
acgctggaaa acgtgaactt cgcgcaccct ctgatccttt cagcggagcg cgacacggct 10680 
gttcagctcg tgctttcaca gagcgatgac cggcatgcct cgttccgcat actcagcttg 10740 
tccgacggct cgtggaactt acatgctgcc ggcaatattg ccgcccacgc tggtgtcgct 10800 
cccgtgcccc gactggtcga tgaacgccgg cctgcggtgg atggagacac gtactattcg 1086 0 
ctgctgcgcc acctcgagat agaactgggg ccgagctacc gccgcataca gcgcattcat 10920 
ttcggtgaac aggaagcgct ggccgcgatt gattccgcaa cgccgctcaa tccccgttgt 10980 
gaattggcgg aagccggcct gcaattgctt agcgccgcgg cgagtcccgc gcttgcggat 11040 
ggcgccgaac atccgatatt cgctccgctc ggtatcgatc gcgtttgttt ttacggcagc 11100 
ctggagggcg ccgtatgggg ggccgcgcaa attctccggc attcgccgga cggctttacc 11160 
ggcgaggcgc agttgctgga ctcggagggc tgcgttctcg gggaacttca gggcgtgagt 1122 0 
ttccggcgcg tcactcgcgc atgggcgcag cgctcggaac ggaagcccga attgtatgag 112 8 0 
gtcgagtggc ggcccgaacc gctccgccag ccttcgcgaa cgctacagcc tggggcatgg 11340 
ctgatcctgg ccgacagtgg cggcgcggcc cgcgctctgg cagatgcgct cacagctcag 11400 
ggcgagatgt gcgttaccgt gccgccagcc ggcgagtaca tgtccctagt cggtgagcgt 11460 
gactggcgcg ggatcgtcaa cctgtacagt ctcgatgatt atgagctcgg ctgccgcagc 1152 0 
actctggccc tggtgaagtc cctgaagtcc ggtccgcggc tatggctggt aacggccggc 1158 0 
gcgcaggcga ccagtgcggt gcacaatccc atgcaggccg cgctctgggg cttcggccgg 1164 0 



MSDOCID: <WO 0140497A2_I_> 



WO 01/40497 



83 



PCT/FR00/033II 



gtgatcgcgc gcgagcaccc ggatctgtgg ggcgggctca tcgatctgga tcccgacgat 11700 
gcgcatgctt cggcggccgg cgcggccgcg cagatgcgtg atttcgacgg cgaagatcag 11760 
tcggcgtgga gaagcaaccg gcgctacgtg ccgcgactga cccgccgacc cagcgcgcga 11820 
gcggcagtcc gtctggtttc gggcgcgact tatttgatca ccggcgggct cggagccctg 11880 
ggacttacag tcgcgaaatg gatggtggag cacggcgcca ctcgcgtcgt gctggccggg 11940 
cgccggcctc caaacgagga gcagcagcgc gtgctgcaac agattggtgc gacggcagag 12 000 
acggtcgacg tcagccggga agaagaggtc gcggatctca ttcgccgcat ccacaccgaa 12060 
acgtcaccgc tgcgcggcgt tatccatgcc gcgggtgtgc tggacgacgg cgtactgctg 12120 
aatcaggact ggacgcggat cgcaagcgtc atggcgccga aggcggaagg cgctgtacac 12180 
ctccatcatc acacccgcga tctgccgctc gacttcttcg tgctcttttc atcggcatcc 12240 
tcgctcttag gtcctgccgg gcaggcaggc tacgccgcgg ccaacgccgt tctcgatgcg 12300 
ctggcgcatc accggcgcgg actgggtttg ccggcgacca gcattaactg ggggcgctgg 12360 
tcgggagccg gaatggccgc gcgcaccagc cagtcgatgg ccggcgtggc gagcctctcc 12420 
gtggacgagg gtctacacat tctcgaggcc gtcctgcatg aatgccccat tcagattgcc 12480 
gcgctaccgg cgggctcgat taccggcgag ttgctgcgtc ccgccgcgct gccttcacct 12540 
caactgcgca cccgcttgaa cgaagccaca ccccggcagc gcgaagccat cctcattgcg 12600 
cacatcaggg agtcactggc gcgctttgtc ggcatcgcga cttccacacc gctcgatcca 12660 
cagcagcctt tgggtgaact gggactcgat tcgctaatgg ccatagaact tcgcaactcg 12720 
ctctcccaat cactggggca gcctttgccc gcgagtctgc tgttcgacta tccgtcgctc 12780 
gatgcgatcg tcagttacgt gctccatgcg gtatttccac ccgaagcatc accggtggaa 12840 
gcgccggagt ttgagaacct cgcccgcgaa gaactggaag cgctgctcga ttcgcggctg 12900 
gcgcaggtcg accagtggtt ggagacgcaa taaacatgag cgggtcagac gatctcagca 12960 
agcttcgccg cgccgtgatt gcgctcgaca aggtgcagaa acgcatcgac cagctggaga 13020 
gcgcgcgcag cgagcccatc gccctcatcg gcgcgggctg ccgcttcccc ggcgcatcca 13080 
atctcgatgc ctattggtcg ttgctgcgcg agggccgcag cgcggtacgt gaagttccac 13140 
ccgaccgctg ggacatcgat gcctactacg atccggatcc cggcgcgacg ggccgaatgt 132 00 
acacgcggta cggcggcttc atcgatcagg ttgaccgttt tgacgcccgg ttcttcggca 132 60 
tcgctccgcg cgaggcgatc agcctggatc cacagcagcg gctgcttctg gaagtcacct 13320 
gggaggcgat cgagaacgcc gggcttccac ccgaccggct ggcggggagc cggaccggcg 13380 
tcttcatggg gatcttttcc aacgattatt acaacctgca aatgcgcggc ggggatgcgc 13440 
atatcgacgc gtacaccggc acgggcaata cggccagcgt tgccgccggg cgtctctcgt 13500 
acatcctcgg gctgcagggc ccgaacatgg cgatcgacac ggcatgctcg tcatcgctgg 13 560 
tcgcggtgca ccttgcctgt cagagcctgc gctcaggtga aagcgacctc gcgctggcgg 13 620 
gcggcgtcaa tctgattctc tcgccggatc ggacgatcta cttctgcaag ctgaaggcga 13680 
tggcagccga cggtcgctgt aaggcattcg atgccgcagc agacggctac gtccgcggtg 13 740 
agggctgcgg tgtggttgtg ctgaagcgac tctccgacgc gctgcgcgat cgcgatccgg 13800 
tgatggcggt gattcgcggc acggcaatca accaggacgg acgcagcaat ggactgacgg 13860 
cgccgaacgg. gcccgcacag gaagccgtga tccgccaggc tgtgggagac gcgcgcttgc 13920 
agacgctgga tgtgagctat gtcgaggcgc acggaaccgg cacgccgctg ggcgatccca 13980 
tcgaagccgg agcccttgcg gccgcgctgg gagcggggcg caccaacggc aacaagctga 14040 
agctcgggtc ggtgaagacc aacttcggcc acctcgaggc ggcagcgggc gtggccgcac 14100 
tgatcaaggt ggcgctgatg ctgcagaacg aagccattcc gccccatctg aatctgacca 14160 
cgcccagccc gcacatcgat tggaacacgc ttcccctcga aatcccggca cggctcaccc 14220 
cctggccggt tgcacccggc gggcggcgcg tcgccggcat caactcgttc ggcttgagcg 14280 
gtacgaatgc gcacgtgctc atcgagcagg cgccgcaaca ggccgcgtcc agtacgcccg 1434 0 
caccgtacct gcttccgcta tcggcgcgca gtccggaggc gctgcgtgat ctggcgcgcg 14400 
cataccgcga cgtggtgaac gacaaccccg ccgacacctg ctacacggcg tgcgctcgcc 14460 
gcacttcata cgaacaccgc gcggcattca ccgggacgaa cgcgcaggac ttgatggccg 14520 
ggctggacag ttttctggcg ggcaacccga accgcgatac cgccacaggt tttgtgccgc 14580 
gcggccagaa gcgaaaagtc gttttcgttt tgccgggaca aggatcgcag tggcccggca 14 64 0 
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tgggccgcga cctgatggct tctgaaccgg tgttccgtgc cgccatcgaa gagtgcggcc 14700 
gcgccatgca gccttacgtc gactggtcgc tgacgcaaga gttgcagggg ccgctcgacc 14760 
gcatcgacgt gattcaaccg gccctgttcg cagtcggggt cgccttggcc ggactgtggc 14820 
gccattgggg aatcgagccg gacgccgtga tcggccacag catgggcgaa gtcgcggcag 14880 
cgcacattgc aggtgcgctg actctcgatg aagccgctcg ggtgatttgc ctgcgcagcc 14940 
ggatgctcgc cggagtacgc ggccagggag aaatggctgt cgtggaatta gcgctggacg 15000 
aggccatcgc tgccatcgcc gggcgctcgg atcgggtctc gattgccgcc agcaacagcc 15060 
cgcgcagcac cgtcctgtcg ggcgacagcg cagctctggg cgaactgctg cgggaactgg 15120 
aggcgaaaga cgtcttctgc cgtcgcgtga aagtggacat tgcctcgcac agccatctga 15180 
tggactccgt gtgcgcggcg ttgccgggcg tggtgggagc gcttcagccg cggccggccg 1524 0 
cccttggcat gtactccacc gtcaccggcg cagcgattag cggtgaagag ctggtttctg 15300 
cgtactgggc tcgtaatctt cgccaacccg tgatgctgtc gacggccgtc gccgcagccg 15360 
cggcgggtgg tcatgatgtg tttctggaac tgagtcccca cccgttgttg gtccagccga 15420 
tccaggaaac gctcggagat cgggcagcga ttgccgctgc ctcgttgcgg cgcgatgaag 15480 
acggaaacct cgcactgcgc cggacgctgg gagcgctgct gactaacgga gtcactccgg 1554 0 
actggtctcg tatttatccc aacggcggcc aaactcgccg gctgcccaac tatccctggc 15600 
agcgtgagcg ttattggatc gatatccgtc cgccgcaggt cgagtctcag gctttgcctg 15660 
gccggcggat cccgtcgccg ctgccggaga tgcagttcga gtccactgtg gaggcgaaag 15720 
atttcgcgga tcaccggctg cacgatgtga tcgtgactcc gggagcgtgg cacctggcaa 15780 
tggcgctcgc cgctgcgcgc caaggtctcg gcgccgggcc tcaccatgtc gaacacgtgt 15840 
cattgacggg cgcgctgacg ctgccggaaa acgatgctgc caggcaggtt caactggtac 15900 
tccgtcatga agagggcggc ggagcttcct tccgcatcta cagccgcgag gattcctgga 15960 
agctgcacag cgaaggcatg ctgcaggcgg gcgattccac ggcatccatc gatctggatg 16020 
cgattcgcgc ccgctgcacg gcggagctca cagccgatgc cttctattcg cgactgtggg 16080 
atcgcggcta tcacttcggt cccaccttcc gaaccatcgg ccccatctgg cgcggcaacg 16140 
gtgaggtgct ttgtcgcgtg gacattccgc tgacggaaat gcagacgatc gactgctgtc 162 00 
tgcagttgcc cgcggccctc gtccatcacg acgatttgaa agatgtgcat gtgccggtag 16260 
gtctggaccg attctcgctc gctgaagtgc ccactggccc ggtctgggga tacgcggtct 16320 
tgcggccgga ttccacggtg gatgtccgtc tcgtcaccgg caccggcagc gtggtggcgg 16380 
aattggtggg gctgcagtcg agagtcgccc atagcggcca gctcggcgaa tcggagattc 16440 
ccacctggac ggtgcaatgg accgcgtcgg ttcgccgcgg cgatgccaat gccggcaatg 16500 
ctggcggacc ttggctcgtc atcggcgagc cggcgattgc cgagactctg caaaagcgcg 16560 
gccaaacctg ccgcacggcc gatacgtgct cgggtccgcc gtgccgtcaa attgtgtact 16620 
gtccctcgcc gcgcatcgac gacctgcttt ccgtattgcg cagcatcgtg caagcgggct 16680 
ggcctgagcc gccgcgcctg tggctgctga cgcgcggatc tgccgcggtt ctcaactccg 16740 
acaaagatat tgatattcga caagcctggc tgcacggaat tgggcggacg attgcctatg 16800 
agcatcccga gctgcgctgc acgctcgtcg atctcgatgc gcacagcaac gactgcgggc 16860 
atctcgcgac gctgatgctg tcgaatatcg cagaggatca agttgcgatc cggcaaggca 16920 
cggtatgggc gccgcgcctc agtcttcaca agatcccatc cgcacccgat gtggcgttcc 16980 
gtgccgacgc aacctatctg atcacgggcg ggctcggcgg actcggactg caggtggcgg 17040 
gatggctcgc cgccgccgga gcgcgccatc tcgttctgct gggacgcagc gagcgtcctc 17100 
ggccacaact ggaaggtgtc aacgtcaaga tcatccatgc ggacgtggcg gaccggcagc 17160 
agctatcgga tgcgctcgcg atcatcgatc gcgacatgcc gccgttgcgg ggcgtgttcc 17220 
atctggcagg cacgctggcc gacggcatgc tgctcaatct cacgaccgaa cgcttcgaag 17280 
ccgccatggc tccgaaagta gccggcgcgt ggaacctgca cgaactcacc gccggccggc 17340 
cgctggatca ttttgttctc ttctcttccg ccagcgcgac agtgggatct cccggccagg 17400 
gcaactacgc cgccggcaat tcatttctcg acgcgctggc tcatctgcgc cgcgcccagg 17460 
gtcttcccgc cgtcagcatc gcgtggggac cgtggacaca ggttggtttg gccgcacagg 1752 0 
cgaaccgcgg agaccgtctg gccgcgcgcg gcatctcggt tattcaaccg caacagggat 17580 
tgcgcgcgct ctacaaagca ttgacgcaga ttcggccgca cgtcgctgtc atgaacttcg 17640 
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atatcgcgca gtggctccgt tactatccgt cggccgcatc gatgtccctg ctggccggca 17700 
tcgcacccgc ggccgcggac accaaaccgg cggccgacat gcgcagcgag ctcctggcag 17760 
ttccagccgg gcggcagcgc cgcgcgcggc tggaaacgct gctgatgcac gaagccggac 17820 
acgtgctgcg cttcgatcca gcgaaactcg acggcagagc gacgctgggt gatctcggat 17880 
tcgattcgtt gatggccctc gagtttcgca accgtctgga agccgggctg cgcgtcaagc 17940 
tttctgccac cctgatctgg cgttacccga cattctccgc cctggcgcag catctcgccg 18000 
acaagctcgg cctgccgctg gaaagcatgg ccggcaatgc tgaaccttcg accgttgctg 18060 
ccgttgctac ccttgctacc gttggcaccg ccgcgggcga ggaccggagt cccgccgctg 18120 
cagacgatct cgacgccgtc gcaaaccaga tcgccgggtt gggggacaaa gaaatcgaag 18180 
ctttgttgaa acagaagttc gctcattttt caggagcctc cgagtgagtt cgatatccga 18240 
gcgattcccc aaccttacgc cgttgcagca ggcgtacctg acgctggagc acatgcagcg 18300 
acgtctcgat gcggccgaac gcgacgcgcg cgaacccatc gcgatcgtgg gtctgggctg 18360 
ccggtttccg ggcggcgatg ggcccgatga gttctggcag atgttgcgca gtggagtcga 18420 
tgctattcgt gaggtaccgc ctggacgatg ggacgaggag tcggtccggc gcatcctgaa 18480 
atcgttgaac cccgccacgc cggtgaagat tcaagccgga tttctcgatt ccatcgatgg 18540 
tttcgacaac gattttttcg gcatttcgcc acgcgaggcc gtcagcattg atccgcagca 18600 
gcggctgctg ttggaagtgg cgtgggaggc actggaggat gcggggcaga cgatggaagg 18660 
gctctccggc agccgcacgg gcgtcttcgt cgggatccac agccaaagca gcgactattt 18720 
ctggatgcag accgccgatg gcgcgcgcat cgatccgtat accgccaccg gcacggcgca 18780 
tagcgtgatc gccggccgac tttcctattt gctgaacttg caaggaccca gcatcgcgct 18840 
cgacacggcc tgctcgtctt cgctggcggc ggttcatctg gcgtgccaga gcctgcgcag 18900 
cggcgagtgt acgctggccg tggccggcgg agtgaatctg cgcttctcgc cggagtttat 18960 
gtacgccacc tcgaagatgg gaaccgcctc gcccagcggt cgctgccgcg ccttcgacgc 19020 
ggcggcggac ggcatcgtgt tcggagaagg ctgcggcgtg gtggtgctga agcgcctgtc 19080 
cgatgcactc gcggccggag accgggtgtg ggccgtggtg cgcggctccg cggtcaatca 19140 
ggatggccgc tcggccgggc tcaccgctcc caatgtcgtg tctcagcagg tcgtcatccg 19200 
gtcggcattg gccaatgcgg gcgtcgcggc gcagcagatc ggttacatcg aagcccatgg 19260 
cacggggact ccgctcggcg atcccatcga gatcgaggcg ctggcggaaa ccgtcggcct 19320 
cccgcgacct gtcggcgatg tgtgcgcggt cgggtccctg aaatcgaaca tcggccacct 19380 
ggagggagcg gcaggcatag cgggattgat taaagcggtg ctcgcattga gtcacgagac 19440 
gataccgccg agcttacacg tgagacagct gaacccgaat atccggttgg agggaacgtc 19500 
gctcgacatt gtgaaggaag tccggccgtg gcccgcgggt tcgagacgaa ggtttgcggg 19560 
cgtcagcgcg tttggttggt ccggcacgaa cgcgcatgtc gttcttgaag aagcggcgcc 19620 
gactggtaga ggcgaagctg cgagcgggtt ccattcccga ccccccgccg ccgctgcgcg 19680 
ggcggctgtc cccctcgcgg agggggacac tgggggcact cccgacattg caggcactcc 19740 
cgacactgca gacactcccg acactgcaga cactcccgac attgcaggga ctgcaggcac 19800 
tgcggcaact acgggcattg cagacgcgat gtatgtgctt ccgctgtccg cgcatggtgc 19860 
ggacgaactg cgtcgggtgg cgcgggcata cggggaattg ctgacagcgt cgcacgcacc 19920 
gagcctgcgt gatctttgct acacggccgc agtccgccgc acgcatcacc gatgccggct 19980 
cgctgtttcc ggcagaacgg ctgaagaact ggcggcgcag ctccagggga tcacgatccc 2 0040 
ttcccagcga cggaagacgg tattcgtctt ctcgggacag ggatcgcaat ggatcggaat 2 0100 
ggggcgcagc tggatggacc gcgaacccgt tattcgcgag gcgttggaac gctgcgaggc 20160 
cgccatgcgg ccttatgtgg actggtcgct gaaagaagaa ctggcgaagc tcgaccgcgt 2 022 0 
cgaggtcatt cagcctgcgc tcttcgcgct gcaggtcgcc atcgccgcat tgtggcgttc 20280 
ctggggaatc gagccggatg ccgtcatcgg gcacagcatg ggagaggtcg ccgccgctca 2 034 0 
tgtcgcgggt gcgctgacgc tgcaggatgc ggcgcggatc atttgcagcc gcagccggct 2 04 00 
gttgagccgg atcagcggcc tgggcgggat ggcgatggtg gagctgccgc tcgcggaatg 20460 
tgaggccgtg ctgtcgactt acacggaacg actatcgccc gcggtgtcga acggacccaa 20520 
ctccaccgtc atctccggtg aagtcgaagc cctggccgag gtcgtcgcga cgctggagcg 20580 
gcgaggcgtg tcttgccggc cggtgaaagt ggacttcgcc gcgcatagcc cgcaagtgga 20640 
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cccattgtgc gacgaactcc tgcagtcgct cgacgggatt caaccgcggc ccgcgaccat 20700 
acctttttac tccacggtga ccggcgcgac gctggagacc accagcctcg acagcacgta 20760 
ctgggctcgc aatctgcgat cgccggttct gttctggcag ggcatccgcc atcttgccga 20820 
cagcgggcac gatgtctttc tcgagatcag ccctcatccc atcctgctgc ccgccatcgg 20880 
cggcaatgcg gcgctggttc cgtctctgcg ccgcgaccag gacgaacgcg gttccatgct 20940 
cacgtcgctg ggcgccctct atgaggctgg gcacactgtc gcatggcgga ccgtgtaccc 21000 
ttccggcaat tgcgtgcgcc tgccccggta tccctggcag cgtcgtcgtt tctggctcga 21060 
cgcttccccc gcgcgacacg cgatcacgtt gggcaatccg ctgttgggaa aacgcgtcga 21120 
agcctcgacg caacccggca ctttcttctg ggagacggaa ctcagtctcg cttccgtgcc 21180 
ttggctggca gaccatcgcg tgcagggcga agtcgtcttg ccggctactg cgtatctcga 21240 
tatggctctg gccggaactt ccgagacctt cggtgaaagt ccgtgcgtgc tggagcatgt 21300 
gactttcaca cagatgctca ttgtgccgcg cgacggcagc atgacgttgc agctggccat 21360 
cgcggtcgat agacccggga tggcgtcgtt tcggatttcc agccggcagg catcgacatg 21420 
ggtcctgcat gcttccgggg acattcgtca gacgcctgcg gatgcatcga ccgtcccgcc 21480 
ggattctgcg gagacggtgc aggcccgctg ccccacagtg gtgccggcgg cggagctgtg 21540 
gcgtcagatg gcggagcacg gcgtcgagta tggtccggct ttccgcgcgc tcgagcagat 21600 
ctggagttgt ccaggtgagg cgatcgggcg tctgcgtagc tcggaaacgc gttccactgc 21660 
gccggcgttc ctcgatgcat gtctgcagat catcgccgcg gcgtt tggtc ccgccggtgg 21720 
aacctggctg cccgccggca tcgaccggat gcgctggctg catcccgcac gttccgtggt 21780 
gtggacgcat gcgcggctgg aaggacctat cgccgatctg tcgctgctgg acggagaggg 21840 
acaactggtc gcccgcatcg agggtctgcg gctgcagcgc ctggatgcgt cggagcgcat 21900 
cgacatgcgc ggctggttgc acgaactgcg ctgggtcgct cagccgcacg ccgctgcaga 21960 
gccgccggcg gcgcgagcgg cgcggtcatg gctcattgtc ggcgctgtgg atagcgcgct 22020 
caccgcatgg ctgcgcgcta ccggcaaccg cgtgacgcag acctcgccgg aaaagctcga 22080 
tgaactccag ccgccgctcg aggaaatcgt gtttttgctc gagcacgaac cctcatgcga 22140 
ccgcattctg catctcctcc agaccctggg gcgcacgccc tggcgtcaag caccgcgcct 22200 
atggctggtc acgcgcggcg cgcagccggt cgatggacag atcctgcaag ccggtatcgc 22260 
tcaggcgcct ttctggggtt tgggccggac cgtgcattac gaacatccgg aactgaactg 22320 
cacgctgatc gatctcgatc ccgccggcgg cgaagaggaa ctcctgcacg aactgctgac 22380 
gaacaacggc gagaatcaaa tcgcctttcg cggcggcgcg cgttacgtcg cgcgcgtggc 22440 
tcggcacgaa gcggatatgc aacccgccat gttcaaggcc ggcgatcggc cgttccggct 22500 
cgagatcgat gcccccggag tcctcgaccg gctgcgcttg cgggccacat cgcgccgccc 22560 
cccgcaagcc ggtgaagtgg agattgaagt ctgcgccgcg ggcctgaact tcctcgacgt 22 62 0 
tctgctcgcc ctcggcgtta tgcccgacga tgcgcccggc gcgattgccg gcagcccgcg 22680 
cctgggcggc gaatgctcgg gccgtatcgt ggccatgggg aaaggcgtca ccgactttcg 22740 
catcggagat gaagtcgtgg cccttgcgcc ttgcagtttc ggtcgcttcg tcaccacgcc 22800 
cgccttccgc gttgccttga agccggccaa cattcccgcc gaacaggccg ccgccctgcc 22860 
tatcgcgttt ctcaccgccg attacgcgct ctcgcgagcg gcgcggctgg cgcccggcga 22920 
acgagtcctg attcacgctg ccaccggcgg tgtgggattg gcggcaatcc agatcgcaca 22980 
gcgtgcgggc gcggagatct tcgctactgc cgggagtccg gaaaaacgag cgtatctgcg 23040 
ctcgctgggc atcgcgcatg tttcggattc gcgctcgatg gctttcgtgg acgacatccg 23100 
caattggacg aatcaagaag gagtagacgt cgtcctgaat tcgctttccg gcgatctgct 23160 
ggaggcgagc ttcgatctgc tgcgcgatca tggacggttc atcgagatcg gcaagcgcga 23220 
ttactatgcc ggccgcaagc tggggcttcg cccgttcctg aagaacctct cgtacacgct 23280 
ggtcgatttg ctcggcatgt ccctgaagcg cccggcattg acccgggagc tgctgcagga 23340 
gatggtcgca aaattcgaat cggaaacctg gcggcccctg gaaacgcgag tgacgaccat 23400 
caccgaatcg gtggaggcgt ttcgcaccat ggcgcaggcg cggcacatcg gcaaaatcgt 23460 
catggcgatg cgagattgcg ccaatgcgcc catcgcaccc ctacgctcgg cgttcgatag 23520 
cgagggaacc tacttgatta ccggcggact tggcgggctc ggtcttaccg tcgcacgctg 23580 
gatgatcgga cgcggcgccc ggcggctggt gctgctgagc cgccgcgcgc cttcacccga 23640 
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ggtccagcaa gccatcgccg tcatggacgc agatgtccgg acggtgcagg ccgatgtttc 23 700 
tcagcgcgat gaactcgagc gcgtgatctc ttccatcgat cgattgcgcg gcgtgattca 23760 
tgccgcagcc gttctcgacg atgcgctgct actgaaccag acggaagcgc atttccgcaa 23820 
cgtgatggcc gcgaaaatcg acggtgcctg gaacctgcac ttgctcaccc gcgactgccc 23880 
gctcgatcat ttcgtgctct tctcctccgc tgcaggactg ctgggcgcgc ccgcccaggg 23940 
aaactacgcg gccgcgaacg cctttcttga cgcgctggcc tactaccgga aggcccaagg 24000 
cctgccggcg ctgagcatcg gttggggtgc gtggtcggag gtcgggctgg ctgccgcgca 24060 
ggacaatcgc ggatcgcggc tggctttgcg cggcatggaa aacctgacgc cgcaacacgg 24120 
cctcgctatt ctggaacagc tgctgaacag ctcggcttgc cacgtcgccg cgatgcccat 24180 
caatgtccgc cagtggcggc agttctatcc caaggcggcg cagtctgcac tgttcgagct 24240 
tttgcatgac gacgcggcga gcgaagccga tgcgccaaac gcgttgcgcg cgcggctgca 243 00 
atcggccgag cctcagaccc gcaggacatt gctcgaagaa catctacagc agcagctggc 243 60 
gcgcgtgctg cgcatcgact ctcaaactat cgatcccctg cgcccgctga aggaactcgg 24420 
cttcgattcc ctcatggccc tggagtttcg caaccgtctc gaactcacac tgggtctcac 24480 
gctccccgcg accctgattzt ggggtcatcc cacgctggcc ggtcttgccc cgcacctggc 24540 
gtcgcaaatg ggactgccgc tggtcgaagc gcaggccgcg gctgctgcgg aaggagacag 24600 
ccgcgccatg aaaactgcac tcagcgggtt ggacgacatg tcggaagaag cagccgtggc 24 660 
tgcgctccga ggagcaaggt cgtgagggaa aaaattgcgc ccatgtcgtc ggtcaaactc 24720 
gcgctattgg cgcggaacat gcggcaaaac atcgcaggct tcgacctggt tcacgccgaa 24780 
cccatcgcca tcgtcggcat ggcgtgtcgt tttccgggcg gcgcgaagaa tccggacgcc 24840 
ttctggacgc tgttgaagaa cggtgtcgac ggtgtcaccg aggtgccgcc agaccgctgg 24 900 
aactcggacc agtactactc ctccgatccc gatgctccgg gcaaggcgta tgcgcgatat 24960 
gccgccttcc tcgaacgcat tgacggtttc gatgcggaat tcttcggcat ctccccccgc 25020 
gaagctctga acatggatcc gcagcagcgg ctgctgctgg aagtgtgctg ggaagcggca 25080 
gaggacgccg gcatctctcc cggccctctg gcgggcagcg cgaccggcgt ctttgccggc 25140 
tcctgcgccc aggacttcgg actgtttcag tacgccgacc ctgcccgcat cggagcttgg 25200 
tcgggttccg gcgtggcgca tagcatgttg gccaatcgca tctcctatct gctcgacctg 25260 
cgcggtccga gcatggcggt cgatacggcc tgctcctccg cgctcgtcgc cgtccatctg 25320 
gcttgccaaa gcctgcgccg gcgcgaatgc gatgcggcat tcgccggcgg agtgaacttg 253 80 
atcctgactc ccgagggcat gatcgctttg tcgaaggctc gcatgttggc gcccgacgga 25440 
cgctgcaaga cgttcgacgc cgcagccgac ggttatgtgc gcggcgaggg ctgcggcatc 25500 
gtgctgctga agcggctctc cgatgcgctg gccgatggcg atgccatccg tgcagtcatc 25560 
cgcggctcgg caatcaatca ggacggacgg agcaatggca tcacggcgcc gaatctgcag 25620 
gcgcagaagg cggtcctgca agaggcggtg gccaacgcgc acatcgatcc atcccacgta 25680 
tcgttgatcg aggcgcatgg cacgggcacg tcgctgggcg atcctatcga gatcgaggcc 25740 
ctgcagtcgg tctacgacgc gccggactct gcgccttgtc tgctgggttc cgtaaagacc 25800 
aacatcgggc atctggaggg cgcggcggga atcgccgggc tgatcaaagc cgtactcgcc 25860 
ctgcagcatc gcaccattcc tccgcacctg cattttcgcc ggctgaatcc gaacatctca 25920 
ctggacggca gccggtttcg catcgccacg gaatcgtcgc cgtggacgtc ggaaggacgg 25980 
ccgcgtctgg ccggcgtcag ctcgttcggt tttggaggga gcaacgcgca cgtcatcctc 26040 
gaagaggcgc ctgcactccc tttgccgaag ccggtcacac gcccgcagct tctcactctg 26100 
tcggcgcgca ccgacgaagc gctcggcgaa ctggccggcc acttcgcgga gttcctgcag 26160 
tcgcacccga atgcgttgct gtccgacgtt tgcttcacca gtcaggttgg gcgcgacgca 26220 
tatagtcacc gcttggcgat caccgccgca gatgcggcag aggctgtagc ggcattggcc 26280 
gcggcgccgc ggcgcgaagt atcgttgcgc cggcggccgg caatcgcttt tctcttcacc 26340 
ggccagggcg cgcagtacgc cggcatgggc gcagagcttt ataaaacgca gcctgttttt 2 6400 
cgcgacgcgc tcgatcgttg cgccgattgg ctccgtcccc agctcgatgt tccgctgacc 26460 
gttctcttgt tcgagtcggt ttcgccgttg cacgagacgg cgtataccca gccggcaatg 26520 
tttgccctgg aatgggctct ggctcagttc tggctgtcgc tcggcgtccg gccggactac 26580 
gtgctgggcc acagtctcgg cgagtatgtt gcggcgtgtg tggccggcgc ctttagcgtg 2664 0 
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gaggacggcc tgcggctggt gaccgccagg 
aaagcggtca tcgttcacgc caatccgagc 
gtcgccgcat cgaatgcgcc ggaccgcacc 
gaagcgcaag atgacctgca tcgcgccggc 
gcgttccatt cgccgctgat ggatccgatt 
atcgcgtatc agccgctggc gatcccgctg 
aaaggcacga cactcgacgc ccgctactgg 
gaaagcgcga tgcgaaccct ggcggaccgc 
catcccacgc tcaccacgct ggggcgatat 
cactccctat ctaagggacg atcggattgg 
tttaccgcgg gcgtgaatcc cgactggcgc 
gtcgcgctgc cgacgtatcc gtttcagcgt 
agagagccgg cgcgcggcgg catgttggga 
atcttcgaaa attcgctaac cacggagacg 
gcggtcattg tgcccggcgc ctggcacgtg 
ttcggtccgg ttccctgcgc cgtctccgat 
ccggatacgc cggtcacggt gcaagcgatt 
gtgcaggtct tcagccagga tggcgattcg 
gcggcgactg ccggcgccgt tcatttcgag 
ggcgatgcgt tctacggcgc gatgaacgca 
tgggtggaag aagtctggcg tcgcgatggc 
gctgaggatg gcgcgaacgc ttaccggctg 
gtattcggag cgacttggcc cgcggagcgt 
atcgaagcgg tgcgcttcta ccgtccgccg 
cgcccgagct cgagcggccc gttcgtcggt 
gtcatcgccg agttttccgg actggctgta 
tcgtggctgc aggatgtgca gtggcaggag 
ggccctggca agccggagga ctggttgctg 
atgccgcaag agctgcgcgt cgtgtccggc 
cagactttgg tcggccgccc ggcgcggctc 
agtgatgacg atgcgactcc cgtcgatcct 
gcgatcgcgc gcgagcatcc cgagctgtgg 
gccgacatcg ccgccgccat gctgctggat 
atcgcattgc gcaacggacg ccgctacgtt 
aagcggccgc ctgccatttc agccgacggc 
ttaggacgaa gggtggcacg ccgcttgatc 
ggccggcata cggaggcagt tgccgatctc 
gcttgcgatg tgagttccga gcaacagctg 
ccgctgcgtg gagtcgtgca tgccgcaggc 
acgtgggctc gtttcgagaa ggtgctggcg 
cagctcactc gccaccatgc gctcgacttt 
ctcggttccg ccggacagag caattactcg 
cacatgcgcc gcgcgcaagg actaccggcg 
gaaggcatgg ccgcgcgcat cgcgcggcaa 
gaagtgggtg cgcgcatctt cggcgatctg 
ttccaagtct ccgccgaaaa aaggcggagc 
ctcaccgaag ctgcgccgga gcggcggcag 
gccggcggcg tgctggcgct cgatgcgtcc 
gaatacggac tcgattcgct gatggcgctg 
cgcaagagcc ttcccgcgac attgctatac 



gggcggctgg tcaatgcgct tccccgcggc 26700 
cgcatcgcgg cgctcgccgc caaggtggca 26760 
gtgatctccg gcacggctgc agaaatcgcg 26820 
gtggaaacgc gagagctgaa cgtatcgcat 26880 
ttggacaagt tcgaagcgct tgcaggtgcg 26940 
gtgtcgaacg tcagcggagc cgtattgccg 27000 
cggcgacagt tgcgcgaaac cgtgcagttt 27060 
gagtgcaagc tgtttctgga aatcggcccg 2 7120 
tgtctgcccg atgacggcgc ggtctggctg 27180 
tccgtgctgc tggaaagtct tggcggcctg 27240 
ggtctctatg ccggggaatc acccagccgc 27300 
gacaccttca gcctgagacg cgtacccgcg 27360 
gcgcgcctca acagcgcgtt gggcgatgtc 27420 
cctctgctcc atgagcacgt gatctacgac 27480 
tcggcatttc tcgaagcggc acaggaagtc 27540 
gtcatgatgc ggcaggcact ggccatcccg 27600 
gtcacacccg gcgaggacgg cgaagcaaag 27660 
tggaagctcc acacggcagc cagtctgcgc 27720 
ctgccggcgc agccttccga agtcatttcc 27780 
cgcggcgtcg atcttggccc cgccttcagt 27840 
gaggcgctgg ggcgaatgcg tctgccggtg 27900 
caccccggcc tgatcgattc ttgttttcaa 27960 
tgccagcccg gcgcatacgt gccggtcggg 28020 
gcaggttctc tgcgctgtca tgcgcgtctg 28080 
gatctgacgc tggttgaaga gaccggcgcg 28140 
atgcatgccg gtacgctgca atccgcacag 28200 
tgcgagcgat cgacaacgtt gaagtccgac 28260 
tgtgccggcg cagacgatgt cgccggtttg 28320 
gtcactctcc gccaggcgct ggaacagacc 28380 
tggctgatca cgcgcggcgt gcatcgcatc 28440 
ttccaggctc cactgtgggg actcgggcag 28500 
ggcggcctga tcgacctcgg ttgcgacaat 28560 
gaaatccgtt atgccggcga cgacaaagcg 28620 
cgccggctgg tgcggcacaa ggaaacgtcg 28680 
gtctatctga tcaccggegg tctcggcgca 28740 
gagcaaggcg cgcgccgtct ggtactggtc 28800 
gagcaactcg gggctgcagt catggttgct 28860 
gcggcgctgc tggcggaccc gcgcacccag 28920 
gtgctcgatg acggggtagt tacagaacag 28980 
ccgaagctgc agggtgcctg gaatcttcac 29040 
ttcgtactct tctcttccgc cgcttcgctg 29100 
gcggccaacg catttctcga cagccttgcc 29160 
ctgagcatca attggggacc atgggcgggc 29220 
ggcctgccgg gggtaccgct gctgccgccg 29280 
ctgggcgaga ctgccgctca gatcgcggtg 29340 
ccggcgagcg atcccggctt catccagcaa 29400 
gaactgctgc agatgcgcat ccgcaagcag 29460 
aagacgctcg acccgcgccg gccgctcaag 29520 
gatctggcgc gcgccatcgg agagctggtg 29580 
gaccatccga ccgtcgagaa attggccggc 29640 
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catgtcctcc gcgaactcgg actcgacgtc 
cagctgtccg agcaggagat ggcggcgttc 
gaacgatgag cgatctcact cctcttcaac 
cgcgtctcga cgaactggag agcgtccaca 
gccgctttcc cggcgcggac tcgccggaag 
atgccatccg cgaaattcct gcgggccgtt 
ccaacgcgcc gggaaagatg tacacgcgtc 
gcttcgacgc cggcttcttc ggaatcacgc 
agcgcctgct gctcgaggtg gcatgggaag 
gtctcgcggg cagcgacacc ggagtgttca 
tgaaacctac cgatccggcg ctcattgacg 
ctgccgccgg acggatctcc tatctgctgg 
cggcgtgctc ttcctcactc gtggcggttc 
agtgcagcat ggcgctggcc ggcggcgtga 
acttctgccg cctgcgggcc atggcggccg 
ccgacggtta cggccgcggc gagggatgcg 
cgacgcgtga cggcgatcgt attctggcgc 
gccgcagcaa cggcctcacg gcgccgaacg 
cgctcaagaa cgccggcatg gcccccgccg 
ggacgccgct gggagatccc atcgaactgc 
gtgccgtcga ttctccgttg atcgtcgggt 
cggcggcagg tatcgccggc ctgatcaaga 
cgccccatct gcatttcaac gcgcccaacc 
agatagccac cgcatgttcg ccatggccct 
gctcgttcgg aatcagtggc accaattcgc 
tagaagcgaa gacgaatgta gaggcgaaga 
tcaaggcgag tgtagaggcc aaagggaatg 
tcctcgaggg ggacagccgc ccgcgaagcg 
gcgaggaagt gccggtcccg gatcaactcc 
cgctttcggc gcgccatccg caggctctgc 
gctttcacgc tccgctctcc gcgctgtgtt 
aacatcgcgc agcgtttgtg gcctcatccc 
tccggcgcaa tgaaaccaat cgcggcgtcg 
cgaaactcgc cttcatcttt tccggccagg 
tgtattccga cgagcctgtc ttccgatcgg 
gcttcgtgga atggcggctt gcggacctgc 
agatcgatcg cgtgcagcct gcgctgttcg 
aatcctgggg aattcgcccg gacggcgtgg 
cccatgtcgc aggcattctc accctggagg 
ggctgttgct cggacttcgc ggccggggag 
999 c 9 aa 99 c cgtgctcgct gaacgcggtc 
gaccacgcag cacggtgttc tcgggagacc 
tcgagaggcg cggcgtcttc tgccggctga 
aggtggaccc gctcgagaac gaattgcgcc 
ccgccgtgcc gttcttctcc acggttgaag 
cgtcgtactg ggtagccaat ctgcgacagc 
tggctggtga tgagttcacg cagttcctgg 
cgatcgagga tagtctgcgg acgctcggca 
gcgacgaacc ggagcggcgt gagctgctcg 
agcgtccgga ctggcgcgcg ctcgcttcgt 



cccagcgatt ccctcgtcga tgaagtgcgg 29700 
atcacggaaa ccttgcacca tctgggagag 29760 
aggcggtcct ggcgctcaag cgcacgcgag 2 982 0 
acgaacccat cgcgatcgtc ggcatggctt 29880 
cattttggca gctcctgcac gatggcatcg 29940 
gggatgccga tgcgttttac gatcccgatc 30000 
tgggcggatt cctcgatggt gccgtcgacg 30060 
cgcgcgaggt cgccggtctg gatccgcagc 3 012 0 
ctttggagcg tgcgggtcgg ccgcccgaca 30180 
tcgggatcag caccgacgac tacagccggc 30240 
cctataccgg taccggaacc gcgttcagca 30300 
ggttgcaggg accgaacttc cccgtcgaca 30360 
atctggcgtg ccgcagcttg cagtcgcgag 30420 
acctgattct ggcgccggaa agcacgatct 30480 
atggccgttg caaaagtttc gctgcctccg 30540 
gaatgctggt gctgaagcgg ctgtccgatg 30600 
tgattcgcgg atcggccgtc aaccacggcg 30660 
gtccggcgca ggaagccgtg attcgggcgg 30720 
atgtcgatta cgtggaagcc cacggaaccg 30780 
999 c 9 a tggc agcggtgctg ggcgaggggc 30840 
cggtgaaaac caacttcggc cacctggagg 30900 
ccattctcgc cctgcagcac cgagagattc 30960 
cgcacgtact ctggaatgag ctgccgctaa 31020 
ccaacggccg cccccgagtt gccggggtga 31080 
acgtcgtcct cgcagaagcg aagacgaatg 3114 0 
cgaatgtaga ggcgaagacg agtgaagagg 31200 
tggaggctaa ggctagtgct agtgtccccc 31260 
gcggcggggg gtcgggccgg ccgcccagcc 3132 0 
atgccgaaga cggccgcgaa tacctcctac 31380 
gcgatctcgc cggcgcctat cgcgatgggc 31440 
ccgccgccag cctgacgcgc agtcactacg 31500 
tgcccgagtt caatcaattg ctcgaggcct 31560 
ccaccggttt cgccgatccc ggagttcgtc 31620 
gcggacagta cccgcgcatg gcgtatcgcc 31680 
cgatcgaacg ttgcgacgcc gccttccgca 31740 
tcgccgacga gtcgggagca tggctgagcc 31800 
ccgttcaaat cgcgctggtc gaactgctgc 31860 
ccggacacag catgggagaa gtggcggcgg 3192 0 
acgcggcccg catcatctgt cgccgcagcc 31980 
cgatggctct ggtcgaactg ccgctcgatc 32040 
tcactactgt ttctgtcgcg gccagcaacg 32100 
gtgtggctct cgagcatttg aaggacgact 32160 
ttcaggtgga tgtcgcttca cacagctcgc 32220 
aggaactcgg ccgcgttatt gcaaaacgtzt 32280 
gacagttgag cacgggcgag gcgtgcgacg 32340 
cagtccgttt ctgggagtcg ttgcaggcga 32400 
agatcagtcc gcatcctgtg ctgacgccgt 32460 
taaacggact ggttcgcccc gtactgcgcc 32520 
agttgctcgc cgcgctctac gtgaatgggc 32580 
ctcccgacac gcgcctggat ctgccgacgt 32640 
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atccctggca gcgcgagcgc ttctggt teg cgacctcgac gcggcgaagt ttgccggcag 32700 
ttggcggtca tccgctgctc ggtegcaagg tegagattge gctggcgccg gacacacacg 32760 
tctgggagtc cgtgctctct ctggatgcgc tgccgtttct cgccgatcac cggctcaacg 32820 
agcttgtggt gcttcccggt geegcttatg tggagatggc gctggccgca gecaaggaag 32880 
tgttcgcggg tggctgeage ctggaagaga tccggtttga acaaatgetg gttgttcctt 32940 
ccgcgggcgc etcgegagtg caggtcatac tcgagggaca cgcattccgc atctccagtc 33000 
tggecgaagg eggttccgat tggaccgagc acgcgcgcgg caccatggct gcggcgccgg 3 3 060 
acaaggtege gcccacggtg agcctgccca cacttgggga tegcatcgag ggegatgact 33120 
tetatgegge cttcgcatcg caggggatgc attaeggega caccttccgc ggcatcgegg 33180 
aagtgtggcg gcgcgacggc gaggcagtgg cgegactgag cgtgccggat gccgttcgcg 33240 
aagcagagtc cggttacacg cttcatcctg ccttgctcga tgcctgtttg caggtgctgg 33300 
gcgcgacgct tggcggcgaa ggcagcgccg gtccttgcgt gcctgtcgcc ategaaeggt 33360 
tgcactgttt cggcagaccc gccggcgatc ttagggtgca tgcgcggctg aeggggegge 33420 
tegagggega tgtcaccctg tgtgatgcgg aaggccacgt catcctcgag gtccaaggcc 33480 
tgcgtgccca ggaactggag cgccaatccg aatggttcca cgctatggaa tgggagcege 33540 
agetgetgge cgagagtcca aeggcaaegg tgtcgggtgc atggctggtc attgecgatg 33600 
ccggcggcat cgcagccgcg gtggcgcgag ggctgggcac aaacacggtt gtgatttegg 33660 
gtcgcgatgc cgagataccg gatcagcett aceggggegt cattcactgc gggagcctgg 33720 
atgagaccga ggatgagacc gatcegtegg ctgcgggggg aaccgcctgc gaagacattt 33780 
tgcgcatcgt tcaagaattc ggagtgggac gcatacagct gacgaaacaa gcgtccgacg 33840 
ccgaatcgca gcatccgcga atctggctga ttacggcggg cgttcatgcg gagcatctgc 33900 
agatgeeggt ggtgcccgcg cgggcaccgg tgtggggtct gggaegtace atcgcggccg 33960 
agcatcccga gttcgcttgc acctgcatcg atctcgacac tgccggtgaa gtcgaggtgc 3402 0 
aggegctctg ccgagagatt etcgegggga gttctgaacg tcagggcccg g 34071 



<210> 115 

<211> 4615 

<212> ADN 

<213> bacterie 

<400> 115 

actgcagtgc ceggaategg cggtggactt acagcagccg ctggtgcgta tgggattgga 60 
ctcgctcatg gcggtgcaat tacgcaaccg gatcgatacg gatctgegeg tcttgctgcc 120 
catggtccga tttctagacg gccccagcgt tgcggaactg gecagggate taagegatet 180 
aagcggcctc agegaacgea cgacggtggc gccggaacct geggegcagg cctcggttcc 240 
tgccctctcc taccctctca gcgccggcca geaggegett tggtttattt accgaagcgc 300 
geeggaaagt cccgcataca acatcgegtg gatcgcgcgc gcgagaggcg ctttcgatcc 3 60 
gcaggcgttg cgccgttcgc tgeaggaect ggtggatcgt catccggcgc tgegaacgae 42 0 
gattgeggag agtggcggcg cacccgttca aacggtccac agcagcgtcc cggtggattt 480 
cgaagtgatc ccgtgttcgc eggacgatga ggcggtgctg ategaeggeg tcttccacgc 54 0 
gcccttcaat cteggegaaa actgtttccg ctcgcgtctc ctggtgcagt eggggaagga 600 
tcaggttctg gccatcgtgg tgcatcacat cctcgccgac ttctggtcac tgctggtgat 660 
ggtggatgaa ctccgcagta tctacctcgc gaggacagct ggcggtccgc ctgtcgcgcc 720 
gccggtcgcg agcttcgccg ctttcgtccg ctggcagaac gaactgttgg ccggaaccga 780 
gggegagegg ctttggaact actggtcctc gcagctttcc ggccagcttc cggttctgaa 840 
tctcccgtcg gatcgtccca gtccgccggt gcagagtttc eggggaaact ctcactcgtt 900 
ccgaatcgaa cccgcgctga ctgegaaact gaaggegetc gcgcggcggc agaacgegae 960 
getgeatgeg aegctgatgg eggegtttea agtgcttctc tcccgttgga cctcacaaga 1020 
agagatcctg accggcaccc tcaccaacgg teggaegcaa ceggaatteg ccgatctcgt 1080 
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cggatacttc gtgaatcccg taatcctgcg 
tacggtgctc gcccggattc ggcaaacgct 
gtatgcccgg atcgtggagc ggttgggtcc 
gcctcatcgc attcccgaat ccgtgccgtt 
ctggggcagc ctcacactgg agtccctggc 
ggatctgatg atggtcgaaa ccgatggagg 
catttttgat gctgccacga ttgaacgtct 
aatcgcggag aatcccgcct gtccagttgt 
catccagctg ctcgaagagt ggaatgcgac 
cgagctgttc gaagctqagg tggagttgac 
gcagaatctg acatatcgcg aactcaacgg 
ctcgcgcggc gctggacccg gcgaaatggt 
cgtcgcaggg ctgttgggcg tcctgaaggc 
atatccggcg caacgtcttc ggctgatgct 
tgtcacggaa tcggaagtat ggacgcagcc 
cgccgatctc gcctatgtcc tgtacacctc 
aatcacacac caggccgtcg tcaattttct 
cgaccgcgat acgctgctcg ccctcacgac 
ctttttgccc ttgagcgccg gcgcgcgcgt 
tggtgagagg ctggcgaggg aactcgcgcg 
cgccacctgg cgtctgctgc tcgcatccgg 
ctgcggcggt gaagcccttc ctcgcgatct 
gctatggaat ctttacggac ctaccgaaac 
gacaggtgac ggaccggttt cgattggccg 
tgacgatcgg atgcagcccg cacccatcgg 
cgggctcgcc cgtggatacc tgaatcgtcc 
ttcgttcgac cctcatggca ctcggctgta 
cgacggcgcg ctcgagtatc tcggccggat 
catcgaaacc ggcgagatcg aggccgcggt 
ggtcaccgcc agagaaaatg acgcggccgg 
tgctgacggg catcgcgcga cggcagccgc 
gcacgtgacg cagtggcaat ccgtctggga 
ggatccggag ttcaacatcg tcggctggag 
tgccgagatg cgggagtggg tgcaggattc 
tcgcgtgctc gagattggct gtggtacggg 
ttcggagtac tgggccacgg acttttcgca 
ggaccgcacc ggcctggcaa atgtccgcac 
gatcgacagt cgctcgtgcg atgcggttgt 
cgaagcgtat ctgcggcgcg tgctggccga 
cgtatttgtc ggcgatgtcc gcagtctccc 
agttcagcgc gcacccgcgt cgttgacccg 
cgcgtcgcag gaagaggaac tcgtggtcga 
gattccggag atcggccgga ttgaaatcct 
gacccgcttc cgctaccagg cgatcctgca 
atcggatcgc aggcgttgcc agaccgcggc 
gccggagttg gccgcattta ccgagattcc 
tgtgacctgg atgaacggtg acgaagctcc 
gcgccagacg tcgccttccg gcgtcgatcc 
gccgtaccgc gtggcaatcg actggagcag 
cttctgccgt gcggcggccg gtccgccggc 



a 99 a 9 aa ctt tcaggcgatc cggatttcaa 1140 
tctcggcgcg atcgagcacc aggagtaccc 1200 
cggactgcgg gttctattcg tgctccagca 1260 
catgttgggt cagtccggcg gtcgcatggc 1320 
gatgccgctg cgacagagcc ggtttgacct 1380 
cctctccgcc tttctgcaat acaacacgga 1440 
ctccttgcac ttcgccgtgc tgctggaagg 1500 
cgatctaccg ctgctgacaa cccgggaacg 1560 
cgccgcggaa ttcccgtccc aatgcgtgca 1620 
gcccgacgcc atcgcgttga gcttcggtga 1680 
gagcgccaac cggatcgcgc actatctccg 1740 
tggcatccat gtcacgcggt cgctcgaaac 1800 
cggcgcggcc tacgttccgc tggaaccgga 1860 
ggaagagacc aggccggtcg ttgtgctgaa 1920 
cgacaccaat ccgaacccgc tcgcgactcc 1980 
cggttcgacc ggccggccga aaggcgtgca 2040 
ttcgtcgatg cggcatgagc cgggcatcag 2100 
gttcatgttc gacatttccg cgctcgagat 2160 
cgtggtggcg aaccaggaga cggccgtcga 2220 
cagcaaagcg acaatgatgc aggcaactcc 2280 
ctggcccggc gaccgccgcc tgacggcgct 2340 
tgccgaccgg ctcctgcaac gaaccgcggc 2400 
gacaatttgg tccgccatcc aacgggtgac 2460 
ccccatcgca aacactcagc tctatgtgct 2520 
tgttgcgggc gaactgtaca tcggcggcgc 2580 
ggaactcagc gcggacaagt tcgtcgccaa 2 64 0 
tcgcacggga gatctcgccc gccgccaacg 2700 
cgaccaccag gtgaagatac gcgggttccg 2760 
ccgcagtcac ccggcggtcc gacatgctgt 2820 
taagtatctg gcggcctaca ttgtccccct 2880 
cgacacattc cacgaccgag tcgagtccga 2 94 0 
caccacatat gaacagaatg cgccgaacgc 3000 
aagcagtgtt accggagagc cgattccagc 3060 
cgtcgatcgc atcctggcct cgcggccgcg 3120 
actgctgctc ttccgcgtcg ctccccactg 3180 
gaaggcgctg gactacatcg ccgctcacgc 3240 
gttccggcag gcggccgacg acgcgtgcga 3300 
tctgaactcc gttatccagt acttccccgg 3360 
ggcggtgcgt gtggtcaaac cgggcggcat 3420 
gctgctggag acgttttacg cttctttaga 3480 
gaatgagttt cggcaacgcg tgcgttcgct 3540 
tcccgcgttc ttctttgctc tccgcgaaca 3600 
gccgcgtcgc ggccggtcgc ataacgagct 3660 
tatcggatcg cgggaagcgg aggagccgga 3720 
cgaaatacgc agagtactga cggacgctca 3780 
gaacgcacgg ttgaccgccg aaagcgccat 3840 
agagacactc ggggagttgc gggaccggct 3 900 
cgccgatcta tggcgtatgg acgaagacct 3960 
tcatgggcca cacggacgct tcgacgcgac 4020 
ttcccgtccg cgacgccgcc tggccggccc 4080 
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gtatacgaac 
tcatctgaag 
aatgccgctg 
ccggcgagcc 
ccacatttgg 
ctctggagga 
cgtggaagtg 
tattcaggac 
ttcccaaatg 



gatccgctgc 
gagaagctgc 
acgcccaacg 
cacgccgaag 
ggcgaggtgc 
cattcgctgc 
ccctttcgaa 
ggcgtagacc 
tcagatgttc 



gagccgtcta 
ccgactacat 
gaaaaatcga 
cattcacgcc 
tcggcatgga 
tggtcacgca 
ccgtgtttaa 
caggatgggc 
aaatcgagcg 



tacgcgcacg 
gatcccgacc 
ccgtaacgcc 
tccggaaact 
tggcatcggc 
gatgatcgcc 
cgcccccacg 
aaggcgagcc 
tatgatgagc 



gttgtgccgc 
gcgtgggtcg 
ctgcccgatc 
ccggtggaac 
gtccatgatc 
cgcgtgcgcg 
gttcgaggct 
gccgatttgc 
gccgcccaag 



agttgcgtac 
tgctccacga 
ccgagcccag 
aggtactcgc 
acttcttcga 
acatgctcca 
tcgccgtcgc 
tgatcgctgt 
actag 



4140 
4200 
4260 
4320 
4380 
4440 
4500 
4560 
4615 



<210> 116 

<211> 8301 

<212> ADN 

<213> bacterie 



<400> 116 

atgcagaatt 

cgtctgctgc 

gcacccttgt 

cccgcctaca 

ctgcggagtc 

gtggatggag 

caggctgacg 

gacctgcgaa 

attctcctgc 

cgcgacctga 

ctgccgattc 

cagcagtact 

cgcccccggc 

gatttgaccg 

gcaatcgcgg 

ggggttccag 

aacatgatcg 
cgcacccgcg 
gttgaggaac 
gcgctgctgc 
tacatgcaca 
ggactgatgg 
ctgctcgatg 
tcaaccgctg 
acacggcgcg 
cgcactccgc 
aatgcgcggg 
atcatcgctc 
aagtccggca 
attctcgatg 
gcgatgatgg 
agcaagcccg 
ggcgtggaga 



cgtcgccaaa 
aggaaaacag 
cgctggccca 
acattcccat 
tggaggccgt 
aggcgcgcca 
gaatcgcaga 
aacccccgct 
tgacgttgag 
cgcgatcgta 
agtatggcga 
ggaagaaaca 
ccgcgcagca 
atggactcca 
cgtttcaggt 
tcgcgggccg 
tcctgcgcgg 
acaccgcttt 
tgcatcctcc 
ccgatgcgcc 
acggcggatc 
cgtccgccga 
cgtaccgaac 
cgctgttgtc 
atgccggtcc 
acgccgtcgc 
ccaaccgcct 
tggcgatgga 
gcgcgtacct 
aagtgcaacc 
cgatgatggc 
acgatctcgc 
tccgccactc 



taccatagac 
ccccgaacat 
gcagcggctt 
agcgctgcat 
ggtgcagcgg 
gagcctcctg 
agcgcggcaa 
tctgcggacc 
ccacatcatc 
cgaagcgttc 
etgggccgtc 
gctgtcgggc 
gacctggcgg 
cgcgtttgcc 
gctgctgcat 
tacacaacga 
cgatctgcgc 
gagcgccctc 
gcgggacctg 
ggccatcacc 
caaactcgac 
atacaacacc 
cctgctggcg 
ccccgcggtc 
gaacgggtgt 
cgttgtcttc 
ggctcatcgt 
gcgctcgctg 
gcctctcgat 
gcacgcggtc 
ggtcgccgtc 
ctacatcata 
gtcgctagtc 



ctctcgctcg 
cgcatcccgc 
tggtttctcc 
atccgaggtc 
cacgagagcc 
gcgcgagtga 
atggccttgc 
aagctgatct 
gcggatgcgt 
gtgcaggggc 
catcagcaga 
accttgcctt 
ggcgccgtgg 
ttgcgtgaag 
cgctataccg 
gaaacggaag 
gacgatccgt 
tctcatcagg 
agccggtcgc 
gtcatgcctg 
ctcggcgtga 
gatttgttcg 
agcgtggtga 
cgaagccgga 
gcgcatgaac 
gaagaccatc 
ctgagcgcat 
gagatggtga 
cccgcgcacc 
ctcacgcagg 
gaaccagaag 
tatacctccg 
aatctgctgc 



cccgccgcca 
ggcgtgaaaa 
atcagctcga 
cgctggatat 
tgcgcagctg 
cactggaact 
gtgatgccca 
gcctcgatga 
ggtcggtcga 
ggccatcgcc 
cgtcgctgaa 
tcctcgacct 
agaccacagc 
gagcgacggt 
cgcaggaaga 
gtctcgtcgg 
cgtttcgcag 
actttccttt 
ctgtatttca 
ggctcaccat 
ccctcgagcc 
atgcggcaac 
cggatcccga 
tgctcgagca 
tggtcgaagc 
agttgaccta 
ccggcgcggg 
ttgcgctgct 
ccaaggatcg 
aggcggtggc 
ctgcgaatct 
gatcgacggg 
gctccatgca 



attgctcgac 60 
ccgggatgcc 120 
cccggattct 180 
tcgcgtcctc 24 0 
cattggcggt 3 00 
tccggttgtt 360 
gatcccgttc 42 0 
caagcagcag 480 
gacgttcgtc 540 
gctcatggaa 600 
ccaaaccgcg 660 
tcctaccgat 720 
cctcggccgt 780 
gttcatgacg 84 0 
catccttatc 900 
ttgtttcgcc 960 
tcttctcgcc 1020 
cgaacgcctg 1080 
ggtctccttc 1140 
ctcgcgcgag 120 0 
atccggcgat 1260 
catcgcctcc 1320 
cgtccgcatt 1380 
gcacaatgcg 1440 
t caggcggaa 1500 
cgccgagctg 1560 
cccgggaaag 162 0 
tgcgattctg 1680 
tctcgcccgg 1740 
tgagatgatg 1800 
cgtcagcggc 1860 
gcgaccgaag 1920 
gcgcgagccg 1980 
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ggtctgacag ccgccgatgg gctggtcgcc gtcaccaccg tgtcattcga tattgccgga 2040 
ctggagatct ggctgccgtt gatcaccggc gcccgcgtca tcgtcgccac ccgcgagatc 2100 
gtggttgacg gcgagcggct caccaccctg ctggataagt cgggcgctac ggtcatgcag 2160 
gcgaccccga gcggttggcg gcaattgctg gattcgggct ggaagccggg taaaggcttc 2220 
cgtgttttct gcggcggtga agctctgccg ccggaactgg cgcgccgcat tctcgatagt 2280 
ggcgtagagc tgtggaatct ttacggaccg acggagacca ccatatggtc ggccgtgcac 2340 
aagacacaaa gactgggtgc ctccgatagc atcgtgccga tcggccatcc catcgacaac 2400 
acgcagttat acatcctgga ttcgcgcatg gagccggttc cccccggagt tccgggagag 2460 
ctgtacatcg gaggagcggg actggcgcgg ggctatcatc gcaaccccga gctcacgcgt 2520 
gagaaattcc gcgagtggcg tgatcgagga cgcatttact ctaccggcga tctggctcgc 2580 
taccgttccg acggcgcagt cgagtgcctg ggacgagtcg atcgccagat caagctgcgc 2640 
gggtttcgca tcgaaccggc cgagattgag gccgcgatcg agacgcacat tgccgtgaag 2700 
caggcgatta cggtcgtgaa ggacgatcgg ctgatcgcct atctcgttcc ggcaacgggc 2760 
gacgtgcgcg atctgcagag cgatttgcgg tcgtggctgg caacgcgcct tcccgattac 2820 
atgatcccct cggcgtttgt cagcctgtcc tcccttccgc tgacgcccaa cggcaaaatc 2880 
gacgcgaacg cgcttcccgg tttgcccaca acgccggttg ctgctcgcga gccgatgcgc 2940 
ggcgatgtgg tggagacgat tgcgtccatc tggcgtgaag ttctgcgcgt ggagcacgtc 3 0 00 
gactatcggc agaacttctt tgatgtcggc gggcactcgc taatgctcac acgggtgcgc 3060 
ggactgctcg aggagcgcct ggggttgacg ctctccgtcg tcgatctgtt ccggcatacg 3120 
acgatcgagt cgcttgccgg cctggcagaa aaatccgaac ccgccgctgc ggaacctgcg 3180 
gctgcggtcg cagaagatcg gatcgcagtt atcgggatgg ccggccggtt cccgggggcg 3240 
cgcaatgtgg aggagttctg gcgcaatctg cgcgacggtg tggattccat cgccaggctt 3300 
tcgccggaag atctgctggc gggcggcatc agcccggagg tcttccagga cccgagctac 3360 
gtgccggcca agggtctgct ggacggcatc gagtttttcg atgccgcgtt cttcggctac 3420 
agtccgcgcg aagcggagat catggacccg cagcatcgcg tgtttctcga gtgcgcgtgg 3480 
gaagcgatgg agaacgcggg atatgcggcg cgaagctata agggttcgat cggcgttttc 3 54 0 
gcgggatgcg gcgtcaatac ctacctgctg aacaacctcg ccaccgcgga gccgttcgat 3600 
ttctcacgcc cctccgcgta ccagctgctg acggccaacg acaaggattt cctggccacg 3660 
cgtgtctctt acaagctgaa cctccgcggg cccagcctga cggttcagac ggcgtgctcc 3720 
acctcgctgg tgtcggtggt gatggcatgc gagagcttgc agcgcggcgc ctcggacatt 3780 
gccttggccg ggggagttgc catcaatgtt ccgcagtccg tggggtacct gcaccagccg 3840 
ggcatgatcc tgtcgcccga cgggcgctgc cgcgccttcg atgagtccgc tcaaggcacg 3 900 
gtgccgggca acggcgcggg tgtggtcgtc ctcaagcgct tgagccgcgc tctggccgat 3960 
ggcgacacga tctacgccgt cattcgcgga gcggctatta ataatgatgg cgccgagcgc 4020 
atggggttta ccgctccagg tgtggacggt cagacgcgat tgattcggcg cactcaagag 4 080 
atggcgggcg tgaagccgga gtccatcggc tacatcgagg cccacggaac agccacgccg 4140 
ctcggcgatc cggtggagat cgccgccatc gctgccaact ttccgaaaaa cggaagcggc 4200 
gatgtgtata tcggatccgt caagaccaac atcggtcatc tagacgtcgc ggccggtgtg 4260 
gccgggctga tcaagacggt gcttgccgtc catcgcggcc agattcctcc cagcctgaat 4320 
ttccagcgtc cgaatccgcg aattgatttc gcaaacactc cgtttcgtgt gagtacgcgg 4380 
ctgctcgact ggcccgccgg aaagaccccg agacgagcgg cagtcagttc gttcgggatc 4440 
ggcggcacca acgctcacgt gattctggag caagcgccgc cggtgacgcc ggccgcagct 4500 
gcgcccgaac gatccgcaca tgtgctttgc ctgtccgcca atacagacgc ggccctcgaa 4560 
gaactggtgc gctcgtatcg cggccatatg gacaaccagc ccggtttgtc gttcggcgat 4620 
gtcgcattca cggccaatgc agggcgcgtg cacttcccgc accgtatctg cattgtggcc 4680 
cggtcgagcg acgaggctcg ccaacgactg acggaggcac gacgggttcg catcgcccag 474 0 
acgcgcccca agattgcgtt tcttttcacc gggcaaggtg cgcaatacgc gggcatgggc 4800 
cgccagttct acgagtcgca gccggtgttt cgcgccgcca tggatgaatg cgcagctctg 4860 
ctgaatggac ggctcgatct gccggcgctg ttggccgatg acgcgttgct cgacgcgacc 492 0 
gccggcgcgc agcccgcgct gtttgctttg cagtgggcct tggcgcagtt gtggaagtcc 4980 
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tggggtgtga cgcccgacct ggtgatggga 
attgccggcg ccgtcagcct gccggatgcg 
atgcagaacc tgccggaagg tgcgatggct 
gcagcgatca cctcgcgcgt ctccattgcg 
tc999tgcgc cgcaggatat tgagagcgcg 
acgcagatgc tggccgttgc gcgcgccttt 
gacctgcaac gccgggcggc ggcgatcgcg 
aacctcacgg gcaaactggc cggcgaggga 
cacgctcgaa accctgtccg tttcgccgac 
gacgtgtttc tcgagatcgg tcctaagccg 
cccgacgacg ccaagcagtg gctgccgtcg 
attctcagca gtgtggcgac gctatatcag 
gaccgtccgt attcgcgaag gcgtgtcgcc 
cattggatcg agcggagttc cagaccggaa 
tgccggctgt cgctaccggt ggcagacgtt 
cctctactct cagaccaccg atattacggt 
gccatggcgc tcgaggcgtc ggcggaggtg 
gtgaacttcg cgcaccctct gatcctttca 
ctttcacaga gcgatgaccg gcatgcctcg 
tggaacttac atgctgccgg caatattgcc 
ctggtcgatg aacgccggcc tgcggtggat 
ctcgagatag aactggggcc gagctaccgc 
gaagcgctgg ccgcgattga ttccgcaacg 
gccggcctgc aattgcttag cgccgcggcg 
ccgatattcg ctccgctcgg tatcgatcgc 
gtatgggggg ccgcgcaaat tctccggcat 
ttgctggact cggagggctg cgttctcggg 
actcgcgcat gggcgcagcg ctcggaacgg 
cccgaaccgc tccgccagcc ttcgcgaacg 
gacagtggcg gcgcggcccg cgctctggca 
gttaccgtgc cgccagccgg cgagtacatg 
atcgtcaacc tgtacagtct cgatgattat 
gtgaagtccc tgaagtccgg tccgcggcta 
agtgcggtgc acaatcccat gcaggccgcg 
gagcacccgg atctgtgggg cgggctcatc 
gcggccggcg cggccgcgca gatgcgtgat 
agcaaccggc gctacgtgcc gcgactgacc 
ctggtttcgg gcgcgactta tttgatcacc 
gcgaaatgga tggtggagca cggcgccact 
aacgaggagc agcagcgcgt gctgcaacag 
agccgggaag aagaggtcgc ggatctcatt 
cgcggcgtta tccatgccgc gggtgtgctg 
acgcggatcg caagcgtcat ggcgccgaag 
acccgcgatc tgccgctcga cttcttcgtg 
cctgccgggc aggcaggcta cgccgcggcc 
cggcgcggac tgggtttgcc ggcgaccagc 
atggccgcgc gcaccagcca gtcgatggcc 
ctacacattc tcgaggccgt cctgcatgaa 
ggctcgatta ccggcgagtt gctgcgtccc 
cgcttgaacg aagccacacc ccggcagcgc 



cacagcgtcg gcgaatacgc ggcggcgtgt 504 0 
ctcggcttag ttgccgaacg cggccggctc 5100 
gcggtcagcg ccggcgagca gcgctgtgcc 5160 
gccatcaacg gacccgctga ggtcgtgatt 5220 
ctggcaactc tacgtgcgga gggcatcaaa 5280 
cacagctcga gcatggatcc gattctggcg 5340 
tggcgcaatc cttcgatcgg cttggtttcg 5400 
cagctggcga atccgctgta ctggcgagat 54 6 0 
ggtatccaaa cgctcaagga cgaaggctgc 5520 
gttctactcg gcatgggcca aaagtgcctg 5580 
ctgcgtaaag gccgcgatga gtgggagacg 564 0 
99tgggttcg acatcgattg gcaggagttc 5700 
ctgccggcct atcctttcga gagacgccgc 5760 
cctgtagcgg ttgcgagtgg tctcgtcggg 5820 
atcttcgagt cgaaactatc gacggcttcg 5880 
tcggtggtgg ccccggccgt gtacttcctg 5940 
tttggcgccg gccggcacac gctggaaaac 6000 
gcggagcgcg acacggctgt tcagctcgtg 6060 
ttccgcatac tcagcttgtc cgacggctcg 6120 
gcccacgctg gtgtcgctcc cgtgccccga 6180 
ggagacacgt actattcgct gctgcgccac 6240 
cgcatacagc gcattcattt cggtgaacag 6300 
ccgctcaatc cccgttgtga attggcggaa 6360 
agtcccgcgc ttgcggatgg cgccgaacat 6420 
gtttgttttt acggcagcct ggagggcgcc 6480 
tcgccggacg gctttaccgg cgaggcgcag 6540 
gaacttcagg gcgtgagttt ccggcgcgtc 6600 
aagcccgaat tgtatgaggt cgagtggcgg 6660 
ctacagcctg gggcatggct gatcctggcc 6720 
gatgcgctca cagctcaggg cgagatgtgc 6780 
tccctagtcg gtgagcgtga ctggcgcggg 684 0 
gagctcggct gccgcagcac tctggccctg 6900 
tggctggtaa cggccggcgc gcaggcgacc 6 960 
ctctggggct tcggccgggt gatcgcgcgc 7020 
gatctggatc ccgacgatgc gcatgcttcg 7080 
ttcgacggcg aagatcagtc ggcgtggaga 7140 
cgccgaccca gcgcgcgagc ggcagtccgt 7200 
ggcgggctcg gagccctggg acttacagtc 7260 
cgcgtcgtgc tggccgggcg ccggcctcca 7320 
attggtgcga cggcagagac ggtcgacgtc 73 80 
cgccgcatcc acaccgaaac gtcaccgctg 7440 
gacgacggcg tactgctgaa tcaggactgg 7500 
gcggaaggcg ctgtacacct ccatcatcac 7560 
ctcttttcat cggcatcctc gctcttaggt 7620 
aacgccgttc tcgatgcgct ggcgcatcac 7680 
attaactggg ggcgctggtc gggagccgga 7740 
ggcgtggcga gcctctccgt ggacgagggt 78 00 
tgccccattc agattgccgc gctaccggcg 7860 
gccgcgctgc cttcacctca actgcgcacc 7920 
gaagccatcc tcattgcgca catcagggag 7980 
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tcactggcgc gctttgtcgg catcgcgact tccacaccgc tcgatccaca gcagcctttg 8040 
ggtgaactgg gactcgattc gctaatggcc atagaacttc gcaactcgct ctcccaatca 8100 
ctggggcagc ctttgcccgc gagtctgctg ttcgactatc cgtcgctcga tgcgatcgtc 8160 
agttacgtgc tccatgcggt atttccaccc gaagcatcac cggtggaagc gccggagttt 8220 
gagaacctcg cccgcgaaga actggaagcg ctgctcgatt cgcggctggc gcaggtcgac 8280 
cagtggttgg agacgcaata a 8301 



<210> 117 
<211> 5292 
<212> ADN 
<213> bacterie 



<400> 117 

atgagcgggt cagacgatct cagcaagctt 
cagaaacgca tcgaccagct ggagagcgcg 
ggctgccgct tccccggcgc atccaatctc 
cgcagcgcgg tacgtgaagt tccacccgac 
gatcccggcg cgacgggccg aatgtacacg 
cgttttgacg cccggttctt cggcatcgct 
cagcggctgc ttctggaagt cacctgggag 
cggctggcgg ggagccggac cggcgtcttc 
ctgcaaatgc gcggcgggga tgcgcatatc 
agcgttgccg ccgggcgtct ctcgtacatc 
gacacggcat gctcgtcatc gctggtcgcg 
ggtgaaagcg acctcgcgct ggcgggcggc 
atctacttct gcaagctgaa ggcgatggca 
gcagcagacg gctacgtccg cggtgagggc 
gacgcgctgc gcgatcgcga tccggtgatg 
gacggacgca gcaatggact gacggcgccg 
caggctgtgg gagacgcgcg cttgcagacg 
accggcacgc cgctgggcga tcccatcgaa 
gggcgcacca acggcaacaa gctgaagctc 
gaggcggcag cgggcgtggc cgcactgatc 
attccgcccc atctgaatct gaccacgccc 
ctcgaaatcc cggcacggct caccccctgg 
ggcatcaact cgttcggctt gagcggtacg 
caacaggccg cgtccagtac gcccgcaccg 
gaggcgctgc gtgatctggc gcgcgcatac 
acctgctaca cggcgtgcgc tcgccgcact 
acgaacgcgc aggacttgat ggccgggctg 
gataccgcca caggttttgt gccgcgcggc 
ggacaaggat cgcagtggcc cggcatgggc 
cgtgccgcca tcgaagagtg cggccgcgcc 
caagagttgc aggggccgct cgaccgcatc 
ggggtcgcct tggccggact gtggcgccat 
cacagcatgg gcgaagtcgc ggcagcgcac 
gctcgggtga tttgcctgcg cagccggatg 
gctgtcgtgg aattagcgct ggacgaggcc 
gtctcgattg ccgccagcaa cagcccgcgc 



cgccgcgccg tgattgcgct cgacaaggtg 60 
cgcagcgagc ccatcgccct catcggcgcg 120 
gatgcctatt ggtcgttgct gcgcgagggc 180 
cgctgggaca tcgatgccta ctacgatccg 240 
cggtacggcg gcttcatcga tcaggttgac 300 
ccgcgcgagg cgatcagcct ggatccacag 360 
gcgatcgaga acgccgggct tccacccgac 420 
atggggatct tttccaacga ttattacaac 480 
gacgcgtaca ccggcacggg caatacggcc 54 0 
ctcgggctgc agggcccgaa catggcgatc 600 
gtgcaccttg cctgtcagag cctgcgctca 660 
gtcaatctga ttctctcgcc ggatcggacg 720 
gccgacggtc gctgtaaggc attcgatgcc 780 
tgcggtgtgg ttgtgctgaa gcgactctcc 84 0 
gcggtgattc gcggcacggc aatcaaccag 900 
aacgggcccg cacaggaagc cgtgatccgc 960 
ctggatgtga gctatgtcga ggcgcacgga 1020 
gccggagccc ttgcggccgc gctgggagcg 1080 
gggtcggtga agaccaactt cggccacctc 114 0 
aaggtggcgc tgatgctgca gaacgaagcc 1200 
agcccgcaca tcgattggaa cacgcttccc 1260 
ccggttgcac ccggcgggcg gcgcgtcgcc 132 0 
aatgcgcacg tgctcatcga gcaggcgccg 1380 
tacctgcttc cgctatcggc gcgcagtccg 1440 
cgcgacgtgg tgaacgacaa ccccgccgac 1500 
tcatacgaac accgcgcggc attcaccggg 1560 
gacagttttc tggcgggcaa cccgaaccgc 1620 
cagaagcgaa aagtcgtttt cgttttgccg 1680 
cgcgacctga tggcttctga accggtgttc 1740 
atgcagcctt acgtcgactg gtcgctgacg 1800 
gacgtgattc aaccggccct gttcgcagtc 1860 
t9999aatcg agccggacgc cgtgatcggc 1920 
attgcaggtg cgctgactct cgatgaagcc 1980 
ctcgccggag tacgcggcca gggagaaatg 2 04 0 
atcgctgcca tcgccgggcg ctcggatcgg 2100 
agcaccgtcc tgtcgggcga cagcgcagct 2160 
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ctgggcgaac tgctgcggga actggaggcg 
gacattgcct cgcacagcca tctgatggac 
ggagcgcttc agccgcggcc ggccgccctt 
attagcggtg aagagctggt ttctgcgtac 
ctgtcgacgg ccgtcgccgc agccgcggcg 
ccccacccgt tgttggtcca gccgatccag 
gctgcctcgt tgcggcgcga tgaagacgga 
ctgctgacta acggagtcac tccggactgg 
cgccggctgc ccaactatcc ctggcagcgt 
caggtcgagt ctcaggcttt gcctggccgg 
ttcgagtcca ctgtggaggc gaaagatttc 
actccgggag cgtggcacct ggcaatggcg 
gggcctcacc atgtcgaaca cgtgtcattg 
gctgccaggc aggttcaact ggtactccgt 
atctacagcc gcgaggattc ctggaagctg 
tccacggcat ccatcgatct ggatgcgatt 
gatgccttct attcgcgact gtgggatcgc 
atcggcccca tctggcgcgg caacggtgag 
gaaatgcaga cgatcgactg ctgtctgcag 
ttgaaagatg tgcatgtgcc ggtaggtctg 
ggcccggtct ggggatacgc ggtcttgcgg 
accggcaccg gcagcgtggt ggcggaattg 
ggccagctcg gcgaatcgga gattcccacc 
cgcggcgatg ccaatgccgg caatgctggc 
attgccgaga ctctgcaaaa gcgcggccaa 
ccgccgtgcc gtcaaattgt gtactgtccc 
ttgcgcagca tcgtgcaagc gggctggcct 
ggatctgccg cggttctcaa ctccgacaaa 
ggaattgggc ggacgattgc ctatgagcat 
gatgcgcaca gcaacgactg cgggcatctc 
gatcaagttg cgatccggca aggcacggta 
ccatccgcac ccgatgtggc gttccgtgcc 
ggcggactcg gactgcaggt ggcgggatgg 
ctgctgggac gcagcgagcg tcctcggcca 
catgcggacg tggcggaccg gcagcagcta 
atgccgccgt tgcggggcgt gttccatctg 
aatctcacga ccgaacgctt cgaagccgcc 
ctgcacgaac tcaccgccgg ccggccgctg 
gcgacagtgg gatctcccgg ccagggcaac 
ctggctcatc tgcgccgcgc ccagggtctt 
acacaggttg gtttggccgc acaggcgaac 
tcggttattc aaccgcaaca gggattgcgc 
ccgcacgtcg ctgtcatgaa cttcgatatc 
gcatcgatgt ccctgctggc cggcatcgca 
gacatgcgca gcgagctcct ggcagttcca 
acgctgctga tgcacgaagc cggacacgtg 
agagcgacgc tgggtgatct cggattcgat 
ctggaagccg ggctgcgcgt caagctttct 
tccgccctgg cgcagcatct cgccgacaag 
aatgctgaac cttcgaccgt tgctgccgtt 



aaagacgtct tctgccgtcg cgtgaaagtg 2220 
tccgtgtgcg cggcgttgcc gggcgtggtg 2280 
ggcatgtact ccaccgtcac cggcgcagcg 2340 
tgggctcgta atcttcgcca acccgtgatg 24 00 
ggtggtcatg atgtgtttct ggaactgagt 2460 
gaaacgctcg gagatcgggc agcgattgcc 2520 
aacctcgcac tgcgccggac gctgggagcg 2580 
tctcgtattt atcccaacgg cggccaaact 264 0 
gagcgttatt ggatcgatat ccgtccgccg 2700 
cggatcccgt cgccgctgcc ggagatgcag 2760 
gcggatcacc ggctgcacga tgtgatcgtg 2820 
ctcgecgctg cgcgccaagg tctcggcgcc 2880 
acgggcgcgc tgacgctgcc ggaaaacgat 2 94 0 
catgaagagg gcggcggagc ttccttccgc 3000 
cacagcgaag gcatgctgca ggcgggcgat 3 060 
cgcgcccgct gcacggcgga gctcacagcc 3120 
ggctatcact tcggtcccac cttccgaacc 3180 
gtgctttgtc gcgtggacat tccgctgacg 3240 
ttgcccgcgg ccctcgtcca tcacgacgat 33 00 
gaccgattct cgctcgctga agtgcccact 3360 
ccggattcca cggtggatgt ccgtctcgtc 3420 
gtggggctgc agtcgagagt cgcccatagc 34 8 0 
tggacggtgc aatggaccgc gtcggttcgc 3540 
ggaccttggc tcgtcatcgg cgagccggcg 3600 
acctgccgca cggccgatac gtgctcgggt 3660 
tcgccgcgca tcgacgacct gctttccgta 3720 
gagccgccgc gcctgtggct gctgacgcgc 3780 
gatattgata ttcgacaagc ctggctgcac 3 840 
cccgagctgc gctgcacgct cgtcgatctc 3900 
gcgacgctga tgctgtcgaa tatcgcagag 3 960 
tgggcgccgc gcctcagtct tcacaagatc 4020 
gacgcaacct atctgatcac gggcgggctc 4080 
ctcgccgccg ccggagcgcg ccatctcgtt 4140 
caactggaag gtgtcaacgt caagatcatc 4200 
tcggatgcgc tcgcgatcat cgatcgcgac 4260 
gcaggcacgc tggccgacgg catgctgctc 4320 
atggctccga aagtagccgg cgcgtggaac 43 8 0 
gatcattttg ttctcttctc ttccgccagc 4440 
tacgccgccg gcaattcatt tctcgacgcg 4500 
cccgccgtca gcatcgcgtg gggaccgtgg 4560 
c 9cggagacc gtctggccgc gcgcggcatc 4620 
gcgctctaca aagcattgac gcagattcgg 4680 
gcgcagtggc tccgttacta tccgtcggcc 4740 
cccgcggccg cggacaccaa accggcggcc 4800 
gccgggcggc agcgccgcgc gcggctggaa 4 860 
ctgcgcttcg atccagcgaa actcgacggc 4920 
tcgttgatgg ccctcgagtt tcgcaaccgt 4980 
gccaccctga tctggcgtta cccgacattc 5040 
ctcggcctgc cgctggaaag catggccggc 5100 
gctacccttg ctaccgttgg caccgccgcg 5160 
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ggcgaggacc ggagtcccgc cgctgcagac gatctcgacg ccgtcgcaaa ccagatcgcc 5220 
gggttggggg acaaagaaat cgaagctttg ttgaaacaga agttcgctca tttttcagga 5280 
gcctccgagt ga ~ „ q , 



<210> 118 
<211> 6462 
<212> ADN 
<213> bacterie 

<400> 118 

gtgagttcga tatccgagcg attccccaac cttacgccgt tgcagcaggc gtacctgacg 60 
ctggagcaca tgcagcgacg tctcgatgcg gccgaacgcg acgcgcgcga acccatcgcg 120 
atcgtgggtc tgggctgccg gtttccgggc ggcgatgggc ccgatgagtt ctggcagatg 180 
ttgcgcagtg gagtcgatgc tattcgtgag gtaccgcctg gacgatggga cgaggagtcg 240 
gtccggcgca tcctgaaatc gttgaacccc gccacgccgg tgaagattca agccggattt 3 00 
ctcgattcca tcgatggttt cgacaacgat tttttcggca tttcgccacg cgaggccgtc 360 
agcattgatc cgcagcagcg gctgctgttg gaagtggcgt gggaggcact ggaggatgcg 420 
gggcagacga tggaagggct ctccggcagc cgcacgggcg tcttcgtcgg gatccacagc 480 
caaagcagcg actatttctg gatgcagacc gccgatggcg cgcgcatcga tccgtatacc 540 
gccaccggca cggcgcatag cgtgatcgcc ggccgacttt cctatttgct gaacttgcaa 600 
ggacccagca tcgcgctcga cacggcctgc tcgtcttcgc tggcggcggt tcatctggcg 660 
tgccagagcc tgcgcagcgg cgagtgtacg ctggccgtgg ccggcggagt gaatctgcgc 720 
ttctcgccgg agtttatgta cgccacctcg aagatgggaa ccgcctcgcc cagcggtcgc 780 
tgccgcgcct tcgacgcggc ggcggacggc atcgtgttcg gagaaggctg cggcgtggtg 840 
gtgctgaagc gcctgtccga tgcactcgcg gccggagacc gggtgtgggc cgtggtgcgc 900 
ggctccgcgg tcaatcagga tggccgctcg gccgggctca ccgctcccaa tgtcgtgtct 960 
cagcaggtcg tcatccggtc ggcattggcc aatgcgggcg tcgcggcgca gcagatcggt 1020 
tacatcgaag cccatggcac ggggactccg ctcggcgatc ccatcgagat cgaggcgctg 1080 
gcggaaaccg tcggcctccc gcgacctgtc ggcgatgtgt gcgcggtcgg gtccctgaaa 114 0 
tcgaacatcg gccacctgga gggagcggca ggcatagcgg gattgattaa agcggtgctc 1200 
gcattgagtc acgagacgat accgccgagc ttacacgtga gacagctgaa cccgaatatc 1260 
cggttggagg gaacgtcgct cgacattgtg aaggaagtcc ggccgtggcc cgcgggttcg 1320 
agacgaaggt ttgcgggcgt cagcgcgttt ggttggtccg gcacgaacgc gcatgtcgtt 1380 
cttgaagaag cggcgccgac tggtagaggc gaagctgcga gcgggttcca ttcccgaccc 144 0 
cccgccgccg ctgcgcgggc ggctgtcccc ctcgcggagg gggacactgg gggcactccc 1500 
gacattgcag gcactcccga cactgcagac actcccgaca ctgcagacac tcccgacatt 1560 
gcagggactg caggcactgc ggcaactacg ggcattgcag acgcgatgta tgtgcttccg 1620 
ctgtccgcgc atggtgcgga cgaactgcgt cgggtggcgc gggcatacgg ggaattgctg 1680 
acagcgtcgc acgcaccgag cc tgcgtgat ctttgctaca cggccgcagt ccgccgcacg 174 0 
catcaccgat gccggctcgc tgtttccggc agaacggctg aagaactggc ggcgcagctc 1800 
caggggatca cgatcccttc ccagcgacgg aagacggtat tcgtcttctc gggacaggga 1860 
tcgcaatgga tcggaatggg gcgcagctgg atggaccgcg aacccgttat tcgcgaggcg 1920 
ttggaacgct gcgaggccgc catgcggcct tatgtggact ggtcgctgaa agaagaactg 1980 
gcgaagctcg accgcgtcga ggtcattcag cctgcgctct tcgcgctgca ggtcgccatc 2040 
gccgcattgt ggcgttcctg gggaatcgag ccggatgccg tcatcgggca cagcatggga 2100 
gaggtcgccg ccgctcatgt cgcgggtgcg ctgacgctgc aggatgcggc gcggatcatt 2160 
tgcagccgca gccggctgtt gagccggatc agcggcctgg gcgggatggc gatggtggag 2220 
ctgccgctcg cggaatgtga ggccgtgctg tcgacttaca cggaacgact atcgcccgcg 22 80 
gtgtcgaacg gacccaactc caccgtcatc tccggtgaag tcgaagccct ggccgaggtc 234 0 
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gtcgcgacgc tggagcggcg aggcgtgtct 
catagcccgc aagtggaccc attgtgcgac 
ccgcggcccg cgaccatacc tttttactcc 
agcctcgaca gcacgtactg ggctcgcaat 
atccgccatc ttgccgacag cgggcacgat 
ctgctgcccg ccatcggcgg caatgcggcg 
gaacgcggtt ccatgctcac gtcgctgggc 
tggcggaccg tgtacccttc cggcaattgc 
cgtcgtttct ggctcgacgc ttcccccgcg 
ttgggaaaac gcgtcgaagc ctcgacgcaa 
agtctcgctt ccgtgccttg gctggcagac 
gctactgcgt atctcgatat ggctctggcc 
tgcgtgctgg agcatgtgac tttcacacag 
acgttgcagc tggccatcgc ggtcgataga 
cggcaggcat cgacatgggt cctgcatgct 
gcatcgaccg tcccgccgga ttctgcggag 
ccggcggcgg agctgtggcg tcagatggcg 
cgcgcgctcg agcagatctg gagttgtcca 
gaaacgcgtt ccactgcgcc ggcgttcctc 
tttggtcccg ccggtggaac ctggctgccc 
cccgcacgtt ccgtggtgtg gacgcatgcg 
ctgctggacg gagagggaca actggtcgcc 
gatgcgtcgg agcgcatcga catgcgcggc 
ccgcacgccg ctgcagagcc gccggcggcg 
gctgtggata gcgcgctcac cgcatggctg 
tcgccggaaa agctcgatga actccagccg 
cacgaaccct catgcgaccg cattctgcat 
cgtcaagcac cgcgcctatg gctggtcacg 
ctgcaagccg gtatcgctca ggcgcctttc 
catccggaac tgaactgcac gctgatcgat 
ctgcacgaac tgctgacgaa caacggcgag 
tacgtcgcgc gcgtggctcg gcacgaagcg 
gatcggccgt tccggctcga gatcgatgcc 
gccacatcgc gccgcccccc gcaagccggt 
ctgaacttcc tcgacgttct gctcgccctc 
attgccggca gcccgcgcct gggcggcgaa 
ggcgtcaccg actttcgcat cggagatgaa 
cgcttcgtca ccacgcccgc cttccgcgtt 
caggccgccg ccctgcctat cgcgtttctc 
cggctggcgc ccggcgaacg agtcctgatt 
gcaatccaga tcgcacagcg tgcgggcgcg 
aaacgagcgt atctgcgctc gctgggcatc 
ttcgtggacg acatccgcaa ttggacgaat 
ctttccggcg atctgctgga ggcgagcttc 
gagatcggca agcgcgatta ctatgccggc 
aacctctcgt acacgctggt cgatttgctc 
cgggagctgc tgcaggagat ggtcgcaaaa 
acgcgagtga cgaccatcac cgaatcggtg 
cacatcggca aaatcgtcat ggcgatgcga 
cgctcggcgt tcgatagcga gggaacctac 



tgccggccgg tgaaagtgga cttcgccgcg 24 00 
gaactcctgc agtcgctcga cgggattcaa 2460 
acggtgaccg gcgcgacgct ggagaccacc 2520 
ctgcgatcgc cggttctgtt ctggcagggc 2580 
gtctttctcg agatcagccc tcatcccatc 2640 
ct 99 tt: ccgt ctctgcgccg cgaccaggac 2700 
gccctctatg aggctgggca cactgtcgca 2760 
gtgcgcctgc cccggtatcc ctggcagcgt 2820 
cgacacgcga tcacgttggg caatccgctg 2880 
cccggcactt tcttctggga gacggaactc 2940 
catcgcgtgc agggcgaagt cgtcttgccg 3 000 
ggaacttccg agaccttcgg tgaaagtccg 3060 
atgctcattg tgccgcgcga cggcagcatg 312 0 
cccgggatgg cgtcgtttcg gatttccagc 3180 
tccggggaca ttcgtcagac gcctgcggat 324 0 
acggtgcagg cccgctgccc cacagtggtg 3300 
gagcacggcg tcgagtatgg tccggctttc 3360 
ggtgaggcga tcgggcgtct gcgtagctcg 3420 
gatgcatgtc tgcagatcat cgccgcggcg 3480 
gccggcatcg accggatgcg ctggctgcat 3540 
cggctggaag gacctatcgc cgatctgtcg 3600 
cgcatcgagg gtctgcggct gcagcgcctg 3660 
tggttgcacg aactgcgctg ggtcgctcag 3720 
cgagcggcgc ggtcatggct cattgtcggc 3780 
cgcgctaccg gcaaccgcgt gacgcagacc 3840 
ccgctcgagg aaatcgtgtt tttgctcgag . 3900 
ctcctccaga ccctggggcg cacgccctgg 3960 
cgcggcgcgc agccggtcga tggacagatc 4020 
tggggtttgg gccggaccgt gcattacgaa 4080 
ctcgatcccg ccggcggcga agaggaactc 414 0 
aatcaaatcg cctttcgcgg cggcgcgcgt 42 00 
gatatgcaac ccgccatgtt caaggccggc 42 60 
cccggagtcc tcgaccggct gcgcttgcgg 432 0 
gaagtggaga ttgaagtctg cgccgcgggc 43 8 0 
ggcgttatgc ccgacgatgc gcccggcgcg 444 0 
tgctcgggcc gtatcgtggc catggggaaa 4500 
gtcgtggccc ttgcgccttg cagtttcggt 4560 
gccttgaagc cggccaacat tcccgccgaa 4620 
accgccgatt acgcgctctc gcgagcggcg 4680 
cacgctgcca ccggcggtgt gggattggcg 4 74 0 
gagatcttcg ctactgccgg gagtccggaa 4800 
gcgcatgttt cggattcgcg ctcgatggct 4860 
caagaaggag tagacgtcgt cctgaattcg 4 920 
gatctgctgc gcgatcatgg acggttcatc 4980 
cgcaagctgg ggcttcgccc gttcctgaag 5040 
ggcatgtccc tgaagcgccc ggcattgacc 5100 
ttcgaatcgg aaacctggcg gcccctggaa 5160 
gaggcgtttc gcaccatggc gcaggcgcgg 5220 
gattgcgcca atgcgcccat cgcaccccta 5280 
ttgattaccg gcggacttgg cgggctcggt 5340 
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cttaccgtcg cacgctggat gatcggacgc ggcgcccggc ggctggtgct gctgagccgc 5400 

cgcgcgcctt cacccgaggt ccagcaagcc atcgccgtca tggacgcaga tgtccggacg 54 60 

gtgcaggccg atgtttctca gcgcgatgaa ctcgagcgcg tgatctcttc catcgatcga 5520 

ttgcgcggcg tgattcatgc cgcagccgtt ctcgacgatg cgctgctact gaaccagacg 5580 

gaagcgcatt tccgcaacgt gatggccgcg aaaatcgacg gtgcctggaa cctgcacttg 5640 

ctcacccgcg actgcccgct cgatcatttc gtgctcttct cctccgctgc aggactgctg 5700 

ggcgcgcccg cccagggaaa ctacgcggcc gcgaacgcct ttcttgacgc gctggcctac 5760 

taccggaagg cccaaggcct gccggcgctg agcatcggtt ggggtgcgtg gtcggaggtc 5820 

gggctggctg ccgcgcagga caatcgcgga tcgcggctgg ctttgcgcgg catggaaaac 5880 

ctgacgccgc aacacggcct cgctattctg gaacagctgc tgaacagctc ggcttgccac 5940 

gtcgccgcga tgcccatcaa tgtccgccag tggcggcagt tctatcccaa ggcggcgcag 6000 

tctgcactgt tcgagctttt gcatgacgac gcggcgagcg aagccgatgc gccaaacgcg 6060 

ttgcgcgcgc ggctgcaatc ggccgagcct cagacccgca ggacattgct cgaagaacat 6120 

ctacagcagc agctggcgcg cgtgctgcgc atcgactctc aaactatcga tcccctgcgc 6180 

ccgctgaagg aactcggctt cgattccctc atggccctgg agtttcgcaa ccgtctcgaa 6240 

ctcacactgg gtctcacgct ccccgcgacc ctgatttggg gtcatcccac gctggccggt 6300 

cttgccccgc acctggcgtc gcaaatggga ctgccgctgg tcgaagcgca ggccgcggct 63 60 

gctgcggaag gagacagccg cgccatgaaa actgcactca gcgggttgga cgacatgtcg 642 0 

gaagaagcag ccgtggctgc gctccgagga gcaaggtcgt ga 6462 



<210> 119 
<211> 5088 
<212> ADN 
<213> bacterie 

<400> 119 

gtgagggaaa aaattgcgcc catgtcgtcg 

cggcaaaaca tcgcaggctt cgacctggtt 
gcgtgtcgtt ttccgggcgg cgcgaagaat 
ggtgtcgacg gtgtcaccga ggtgccgcca 
tccgatcccg atgctccggg caaggcgtat 

gacggtttcg atgcggaatt cttcggcatc 

cagcagcggc tgctgctgga agtgtgctgg 

ggccctctgg cgggcagcgc gaccggcgtc 

ctgtttcagt acgccgaccc tgcccgcatc 

agcatgttgg ccaatcgcat ctcctatctg 

gatacggcct gctcctccgc gctcgtcgcc 

cgcgaatgcg atgcggcatt cgccggcgga 

atcgctttgt cgaaggctcg catgttggcg 

gcagccgacg gttatgtgcg cggcgagggc 

gatgcgctgg ccgatggcga tgccatccgt 

gacggacgga gcaatggcat cacggcgccg 

gaggcggtgg ccaacgcgca catcgatcca 

acgggcacgt cgctgggcga tcctatcgag 

ccggactctg cgccttgtct gctgggttcc 

gcggcgggaa tcgccgggct gatcaaagcc 

ccgcacctgc attttcgccg gctgaatccg 

atcgccacgg aatcgtcgcc gtggacgtcg 

tcgttcggtt ttggagggag caacgcgcac 



gtcaaactcg cgctattggc gcggaacatg 60 
cacgccgaac ccatcgccat cgtcggcatg 120 
ccggacgcct tctggacgct gttgaagaac 180 
gaccgctgga actcggacca gtactactcc 240 
gcgcgatatg ccgccttcct cgaacgcatt 300 
tccccccgcg aagctctgaa catggatccg 360 
gaagcggcag aggacgccgg catctctccc 420 
tttgccggct cctgcgccca ggacttcgga 480 
ggagcttggt cgggttccgg cgtggcgcat 540 
ctcgacctgc gcggtccgag catggcggtc 600 
gtccatctgg cttgccaaag cctgcgccgg 660 
gtgaacttga tcctgactcc cgagggcatg 720 
cccgacggac gctgcaagac gttcgacgcc 780 
tgcggcatcg tgctgctgaa gcggctctcc 840 
gcagtcatcc gcggctcggc aatcaatcag 900 
aatctgcagg cgcagaaggc ggtcctgcaa 960 
tcccacgtat cgttgatcga ggcgcatggc 1020 
atcgaggccc tgcagtcggt ctacgacgcg 1080 
gtaaagacca acatcgggca tctggagggc 114 0 
gtactcgccc tgcagcatcg caccattcct 1200 
aacatctcac tggacggcag ccggtttcgc 1260 
gaaggacggc cgcgtctggc cggcgtcagc 132 0 
gtcatcctcg aagaggcgcc tgcactccct 1380 
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ttgccgaagc cggtcacacg cccgcagctt 
ctcggcgaac tggccggcca cttcgcggag 
tccgacgttt gcttcaccag tcaggttggg 
accgccgcag atgcggcaga ggctgtagcg 
tcgttgcgcc ggcggccggc aatcgctttt 
ggcatgggcg cagagcttta taaaacgcag 
gccgattggc tccgtcccca gctcgatgtt 
tcgccgttgc acgagacggc gtatacccag 
gctcagttct ggctgtcgct cggcgtccgg 
gagtatgttg cggcgtgtgt ggccggcgcc 
accgccaggg ggcggctggt caatgcgctt 
aatccgagcc gcatcgcggc gctcgccgcc 
gaccgcaccg tgatctccgg cacggctgca 
cgcgccggcg tggaaacgcg agagctgaac 
gatccgattt tggacaagtt cgaagcgctt 
atcccgctgg tgtcgaacgt cagcggagcc 
cgctactggc ggcgacagtt gcgcgaaacc 
gcggaccgcg agtgcaagct gtttctggaa 
gggcgatatt gtctgcccga tgacggcgcg 
tcggattggt ccgtgctgct ggaaagtctt 
gactggcgcg gtctctatgc cggggaatca 
tttcagcgtg acaccttcag cctgagacgc 
atgttgggag cgcgcctcaa cagcgcgttg 
acggagacgc ctctgctcca tgagcacgtg 
tggcacgtgt cggcatttct cgaagcggca 
gtctccgatg tcatgatgcg gcaggcactg 
caagcgattg tcacacccgg cgaggacggc 
ggcgattcgt ggaagctcca cacggcagcc 
catttcgagc tgccggcgca gccttccgaa 
atgaacgcac gcggcgtcga tcttggcccc 
cgcgatggcg aggcgctggg gcgaatgcgt 
taccggctgc accccggcct gatcgattct 
gcggagcgtt gccagcccgg cgcatacgtg 
cgtccgccgg caggttctct gcgctgtcat 
ttcgtcggtg atctgacgct ggttgaagag 
ctggctgtaa tgcatgccgg tacgctgcaa 
tggcaggagt gcgagcgatc gacaacgttg 
tggttgctgt gtgccggcgc agacgatgtc 
gtgtccggcg tcactctccg ccaggcgctg 
gcgcggctct ggctgatcac gcgcggcgtg 
gtcgatcctt tccaggctcc actgtgggga 
gagctgtggg gcggcctgat cgacctcggt 
ctgctggatg aaatccgtta tgccggcgac 
cgctacgttc gccggctggt gcggcacaag 
gccgacggcg tctatctgat caccggcggt 
cgcttgatcg agcaaggcgc gcgccgtctg 
gccgatctcg agcaactcgg ggctgcagtc 
caacagctgg cggcgctgct ggcggacccg 
gccgcaggcg tgctcgatga cggggtagtt 
gtgctggcgc cgaagctgca gggtgcctgg 



ctcactctgt cggcgcgcac cgacgaagcg 1440 
ttcctgcagt cgcacccgaa tgcgttgctg 1500 
cgcgacgcat atagtcaccg cttggcgatc 1560 
gcattggccg cggcgccgcg gcgcgaagta 1620 
ctcttcaccg gccagggcgc gcagtacgcc 1680 
cctgtttttc gcgacgcgct cgatcgttgc 1740 
ccgctgaccg ttctcttgtt cgagtcggtt 1800 
ccggcaatgt ttgccctgga atgggctctg 1860 
ccggactacg tgctgggcca cagtctcggc 1920 
tttagcgtgg aggacggcct gcggctggtg 198 0 
ccccgcggca aagcggtcat cgttcacgcc 2040 
aaggtggcag tcgccgcatc gaatgcgccg 2100 
gaaatcgcgg aagcgcaaga tgacctgcat 2160 
gtatcgcatg cgttccattc gccgctgatg 2220 
gcaggtgcga tcgcgtatca gccgctggcg 22 80 
gtattgccga aaggcacgac actcgacgcc 2340 
gtgcagtttg aaagcgcgat gcgaaccctg 24 00 
atcggcccgc atcccacgct caccacgctg 2460 
gtctggctgc actccctatc taagggacga 2520 
ggcggcctgt ttaccgcggg cgtgaatccc 2580 
cccagccgcg tcgcgctgcc gacgtatccg 2640 
gtacccgcga gagagccggc gcgcggcggc 2700 
ggcgatgtca tcttcgaaaa ttcgctaacc 2760 
atctacgacg cggtcattgt gcccggcgcc 2820 
caggaagtct tcggtccggt tccctgcgcc 2880 
gccatcccgc cggatacgcc ggtcacggtg 2 94 0 
gaagcaaagg tgcaggtctt cagccaggat 3 0 00 
agtctgcgcg cggcgactgc cggcgccgtt 3 060 
gtcatttccg gcgatgcgtt ctacggcgcg 3120 
gccttcagtt gggtggaaga agtctggcgt 3180 
ctgccggtgg ctgaggatgg cgcgaacgct 3 24 0 
tgttttcaag tattcggagc gacttggccc 3300 
ccggtcggga tcgaagcggt gcgcttctac 3360 
gcgcgtctgc gcccgagctc gagcggcccg 3420 
accggcgcgg tcatcgccga gttttccgga 3480 
tccgcacagt cgtggctgca ggatgtgcag 3 54 0 
aagtccgacg gccctggcaa gccggaggac 3 6 00 
gccggtttga tgccgcaaga gctgcgcgtc 3660 
gaacagaccc agactttggt cggccgcccg 3720 
catcgcatca gtgatgacga tgcgactccc 3780 
ctcgggcagg cgatcgcgcg cgagcatccc 3 84 0 
tgcgacaatg ccgacatcgc cgccgccatg 3 900 
gacaaagcga tcgcattgcg caacggacgc 3 960 
gaaacgtcga agcggccgcc tgccatttca 4020 
ctcggcgcat taggacgaag ggtggcacgc 4080 
gtactggtcg gccggcatac ggaggcagtt 4140 
atggttgctg cttgcgatgt gagttccgag 4200 
cgcacccagc cgctgcgtgg agtcgtgcat 4260 
acagaacaga cgtgggctcg tttcgagaag 4320 
aatcttcacc agctcactcg ccaccatgcg 4380 
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ctcgactttt tcgtactctt ctcttccgcc gcttcgctgc tcggttccgc cggacagagc 4440 

aattactcgg cggccaacgc atttctcgac agccttgccc acatgcgccg cgcgcaagga 4500 

ctaccggcgc tgagcatcaa ttggggacca tgggcgggcg aaggcatggc cgcgcgcatc 4560 

gcgcggcaag gcctgccggg ggtaccgctg ctgccgccgg aagtgggtgc gcgcatcttc 4620 

ggcgatctgc tgggcgagac tgccgctcag atcgcggtgt tccaagtctc cgccgaaaaa 4680 

aggcggagcc cggcgagcga tcccggcttc atccagcaac tcaccgaagc tgcgccggag 4 74 0 

cggcggcagg aactgctgca gatgcgcatc cgcaagcagg ccggcggcgt gctggcgctc 4800 

gatgcgtcca agacgctcga cccgcgccgg ccgctcaagg aatacggact cgattcgctg 4860 

atggcgctgg atctggcgcg cgccatcgga gagctggtgc gcaagagcct tcccgcgaca 4920 

ttgctatacg accatccgac cgtcgagaaa ttggccggcc atgtcctccg cgaactcgga 4980 

ctcgacgtcc ccagcgattc cctcgtcgat gaagtgcggc agctgtccga gcaggagatg 5040 

gcggcgttca tcacggaaac cttgcaccat ctgggagagg aacgatga 5088 



<210> 120 

<211> 4306 

<212> ADN 

<213> bacterie 

<400> 120 

atgagcgatc tcactcctct tcaacaggcg 
ctcgacgaac tggagagcgt ccacaacgaa 
tttcccggcg cggactcgcc ggaagcattt 
atccgcgaaa ttcctgcggg ccgttgggat 
gcgccgggaa agatgtacac gcgtctgggc 
gacgccggct tcttcggaat cacgccgcgc 
ctgctgctcg aggtggcatg ggaagctttg 
gcgggcagcg acaccggagt gttcatcggg 
cctaccgatc cggcgctcat tgacgcctat 
gccggacgga tctcctatct gctggggttg 
tgctcttcct cactcgtggc ggttcatctg 
agcatggcgc tggccggcgg cgtgaacctg 
tgccgcctgc gggccatggc ggccgatggc 
ggttacggcc gcggcgaggg atgcggaatg 
cgtgacggcg atcgtattct ggcgctgatt 
agcaacggcc tcacggcgcc gaacggtccg 
aagaacgccg gcatggcccc cgccgatgtc 
ccgctgggag atcccatcga actgcgggcg 
gtcgattctc cgttgatcgt cgggtcggtg 
gcaggtatcg ccggcctgat caagaccatt 
catctgcatt tcaacgcgcc caacccgcac 
gccaccgcat gttcgccatg gccctccaac 
ttcggaatca gtggcaccaa ttcgcacgtc 
gcgaagacga atgtagaggc gaagacgaat 
gcgagtgtag aggccaaagg gaatgtggag 
9 a 99999^ca gccgcccgcg aagcggcggc 
gaagtgccgg tcccggatca actccatgcc 
tcggcgcgcc atccgcaggc tctgcgcgat 
cacgctccgc tctccgcgct gtgttccgcc 
cgcgcagcgt ttgtggcctc atccctgccc 



gtcctggcgc tcaagcgcac gcgagcgcgt 6 0 
cccatcgcga tcgtcggcat ggcttgccgc 12 0 
tggcagctcc tgcacgatgg catcgatgcc 180 
gccgatgcgt tttacgatcc cgatcccaac 240 
ggattcctcg atggtgccgt cgacggcttc 3 00 
gaggtcgccg gtctggatcc gcagcagcgc 360 
gagcgtgcgg gtcggccgcc cgacagtctc 42 0 
atcagcaccg acgactacag ccggctgaaa 480 
accggtaccg gaaccgcgtt cagcactgcc 540 
cagggaccga acttccccgt cgacacggcg 600 
gcgtgccgca gcttgcagtc gcgagagtgc 660 
attctggcgc cggaaagcac gatctacttc 720 
cgttgcaaaa gtttcgctgc ctccgccgac 780 
ctggtgctga agcggctgtc cgatgcgacg 840 
cgcggatcgg ccgtcaacca cggcggccgc 900 
gcgcaggaag ccgtgattcg ggcggcgctc 960 
gattacgtgg aagcccacgg aaccgggacg 1020 
atggcagcgg tgctgggcga ggggcgtgcc 108 0 
aaaaccaact tcggccacct 99^ggcggcg 114 0 
ctcgccctgc agcaccgaga gattccgccc 1200 
gtactctgga atgagctgcc gctaaagata 1260 
ggccgccccc gagttgccgg ggtgagctcg 1320 
gtcctcgcag aagcgaagac gaatgtagaa 13 80 
gtagaggcga agacgagtga agaggtcaag 144 0 
gctaaggcta gtgctagtgt ccccctcctc 1500 
999999tcgg gccggccgcc cagccgcgag 1560 
gaagacggcc gcgaatacct cctaccgctt 1620 
ctcgccggcg cctatcgcga tgggcgcttt 1680 
gccagcctga cgcgcagtca ctacgaacat 1740 
gagttcaatc aattgctcga ggccttccgg 1800 
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cgcaatgaaa ccaatcgcgg cgtcgccacc ggtttcgccg atcccggagt tcgtccgaaa 1860 
ctcgccttca tcttttccgg ccagggcgga cagtacccgc gcatggcgta tcgcctgtat 1920 
tccgacgagc ctgtcttccg atcggcgatc gaacgttgcg acgccgcctt ccgcagcttc 1980 
gtggaatggc ggcttgcgga cctgctcgcc gacgagtcgg gagcatggct gagccagatc 2040 
gatcgcgtgc agcctgcgct gttcgccgtt caaatcgcgc tggtcgaact gctgcaatcc 2100 
tggggaattc gcccggacgg cgtggccgga cacagcatgg gagaagtggc ggcggcccat 2160 
gtcgcaggca ttctcaccct ggaggacgcg gcccgcatca tctgtcgccg cagccggctg 2220 
ttgctcggac ttcgcggccg gggagcgatg gctctggtcg aactgccgct cgatcgggcg 2280 
aaggccgtgc tcgctgaacg cggtctcact actgtttctg tcgcggccag caacggacca 2340 
cgcagcacgg tgttctcggg agaccgtgtg gctctcgagc atttgaagga cgacttcgag 2400 
aggcgcggcg tcttctgccg gctgattcag gtggatgtcg cttcacacag ctcgcaggtg 2460 
gacccgctcg agaacgaatt gcgccaggaa ctcggccgcg ttattgcaaa acgttccgcc 2520 
gtgccgttct tctccacggt tgaaggacag ttgagcacgg gcgaggcgtg cgacgcgtcg 2580 
tactgggtag ccaatctgcg acagccagtc cgtttctggg agtcgttgca ggcgatggct 2640 
ggtgatgagt tcacgcagtt cctggagatc agtccgcatc ctgtgctgac gccgtcgatc 2700 
gaggatagtc tgcggacgct cggcataaac ggactggttc gccccgtact gcgccgcgac 2760 
gaaccggagc ggcgtgagct gctcgagttg ctcgccgcgc tctacgtgaa tgggcagcgt 2820 
ccggactggc gcgcgctcgc ttcgtctccc gacacgcgcc tggatctgcc gacgtatccc 2880 
tggcagcgcg agcgcttctg gttcgcgacc tcgacgcggc gaagtttgcc ggcagttggc 2940 
ggtcatccgc tgctcggtcg caaggtcgag attgcgctgg cgccggacac acacgtctgg 3000 
gagtccgtgc tctctctgga tgcgctgccg tttctcgccg atcaccggct caacgagctt 3060 
gtggtgcttc ccggtgccgc ttatgtggag atggcgctgg ccgcagccaa ggaagtgttc 3120 
gcgggtggct gcagcctgga agagatccgg tttgaacaaa tgctggttgt tccttccgcg 3180 
ggcgcctcgc gagtgcaggt catactcgag ggacacgcat tccgcatctc cagtctggcc 3240 
gaaggcggtt ccgattggac cgagcacgcg cgcggcacca tggctgcggc gccggacaag 3300 
gtcgcgccca cggtgagcct gcccacactt ggggatcgca tcgagggcga tgacttctat 3360 
gcggccttcg catcgcaggg gatgcattac ggcgacacct tccgcggcat cgcggaagtg 3420 
tggcggcgcg acggcgaggc agtggcgcga ctgagcgtgc cggatgccgt tcgcgaagca 3480 
gagtccggtt acacgcttca tcctgccttg ctcgatgcct gtttgcaggt gctgggcgcg 3540 
acgcttggcg gcgaaggcag cgccggtcct tgcgtgcctg tcgccatcga acggttgcac 3600 
tgtttcggca gacccgccgg cgatcttagg gtgcatgcgc ggctgacggg gcggctcgag 3660 
ggcgatgtca ccctgtgtga tgcggaaggc cacgtcatcc tcgaggtcca aggcctgcgt 3720 
gcccaggaac tggagcgcca atccgaatgg ttccacgcta tggaatggga gccgcagctg 3 780 
ctggccgaga gtccaacggc aacggtgtcg ggtgcatggc tggtcattgc cgatgccggc 3840 
ggcatcgcag ccgcggtggc gcgagggctg ggcacaaaca cggttgtgat ttcgggtcgc 3900 
gatgccgaga taccggatca gccttaccgg ggcgtcattc actgcgggag cctggatgag 3960 
accgaggatg agaccgatcc gtcggctgcg gggggaaccg cctgcgaaga cattttgcgc 4020 
atcgttcaag aattcggagt gggacgcata cagctgacga aacaagcgtc cgacgccgaa 4080 
tcgcagcatc cgcgaatctg gctgattacg gcgggcgttc atgcggagca tctgcagatg 4140 
ccggtggtgc ccgcgcgggc accggtgtgg ggtctgggac gtaccatcgc ggccgagcat 4200 
cccgagttcg cttgcacctg catcgatctc gacactgccg gtgaagtcga ggtgcaggcg 4260 
ctctgccgag agattctcgc ggggagttct gaacgtcagg gcccgg 43 06 
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Leu Gin Cys Pro 
1 

Met Gly Leu Asp 
20 

Thr Asp Leu Arg 
35 

Ser Val Ala Glu 
50 

Glu Arg Thr Thr 
65 

Ala Leu Ser Tyr 



Tyr Arg Ser Ala 
100 

Arg Ala Arg Gly 
115 

Asp Leu Val Asp 
130 

Gly Gly Ala Pro 
145 

Glu Val lie Pro 



Val Phe His Ala 
180 

Leu Leu Val Gin 
195 

His He Leu Ala 
210 

Arg Ser He Tyr 
225 

Pro Val Ala Ser 



Ala Gly Thr Glu 
260 



Glu Ser Ala Val 
5 

Ser Leu Met Ala 



Val Leu Leu Pro 
40 

Leu Ala Arg Asp 
55 

Val Ala Pro Glu 
70 

Pro Leu Ser Ala 
85 

Pro Glu Ser Pro 



Ala Phe Asp Pro 
120 

Arg His Pro Ala 
135 

Val Gin Thr Val 
150 

Cys Ser Pro Asp 
165 

Pro Phe Asn Leu 



Ser Gly Lys Asp 
200 

Asp Phe Trp Ser 
215 

Leu Ala Arg Thr 
230 

Phe Ala Ala Phe 
245 

Gly Glu Arg Leu 



Asp Leu Gin Gin 
10 

Val Gin Leu Arg 
25 

Met Val Arg Phe 



Leu Ser Asp Leu 
60 

Pro Ala Ala Gin 
75 

Gly Gin Gin Ala 
90 

Ala Tyr Asn He 
105 

Gin Ala Leu Arg 



Leu Arg Thr Thr 
140 

His Ser Ser Val 
155 

Asp Glu Ala Val 
170 

Gly Glu Asn Cys 
185 

Gin Val Leu Ala 



Leu Leu Val Met 
220 

Ala Gly Gly Pro 
235 

Val Arg Trp Gin 
250 

Trp Asn Tyr Trp 
265 



Pro Leu Val Arg 
15 

Asn Arg He Asp 
30 

Leu Asp Gly Pro 
45 

Ser Gly Leu Ser 



Ala Ser Val Pro 
80 

Leu Trp Phe He 
95 

Ala Trp He Ala 
110 

Arg Ser Leu Gin 
125 

He Ala Glu Ser 



Pro Val Asp Phe 
160 

Leu He Asp Gly 
175 

Phe Arg Ser Arg 
190 

He Val Val His 
205 

Val Asp Glu Leu 



Pro Val Ala Pro 
240 

Asn Glu Leu Leu 
255 

Ser Ser Gin Leu 
270 
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Ser Gly Gin Leu Pro Val Leu Asn Leu Pro Ser Asp Arg Pro Ser Pro 
275 280 285 

Pro Val Gin Ser Phe Arg Gly Asn Ser His Ser Phe Arg lie Glu Pro 
290 295 300 

Ala Leu Thr Ala Lys Leu Lys Ala Leu Ala Arg Arg Gin Asn Ala Thr 
305 310 315 320 

Leu His Ala Thr Leu Met Ala Ala Phe Gin Val Leu Leu Ser Arg Trp 
325 330 335 

Thr Ser Gin Glu Glu lie Leu Thr Gly Thr Leu Thr Asn Gly Arg Thr 
340 345 350 

Gin Pro Glu Phe Ala Asp Leu Val Gly Tyr Phe Val Asn Pro Val lie 
355 360 365 

Leu Arg Gly Glu Leu Ser Gly Asp Pro Asp Phe Asn Thr Val Leu Ala 
370 375 380 

Arg lie Arg Gin Thr Leu Leu Gly Ala lie Glu His Gin Glu Tyr Pro 
385 390 395 400 

Tyr Ala Arg lie Val Glu Arg Leu Gly Pro Gly Leu Arg Val Leu Phe 

405 410 415 

Val Leu Gin Gin Pro His Arg lie Pro Glu Ser Val Pro Phe Met Leu 
420 425 430 

Gly Gin Ser Gly Gly Arg Met Ala Trp Gly Ser Leu Thr Leu Glu Ser 
435 440 445 

Leu Ala Met Pro Leu Arg Gin Ser Arg Phe Asp Leu Asp Leu Met Met 
450 455 460 

Val Glu Thr Asp Gly Gly Leu Ser Ala Phe Leu Gin Tyr Asn Thr Asp 
465 470 475 480 

lie Phe Asp Ala Ala Thr lie Glu Arg Leu Ser Leu His Phe Ala Val 
485 490 495 

Leu Leu Glu Gly lie Ala Glu Asn Pro Ala Cys Pro Val Val Asp Leu 
500 505 510 

Pro Leu Leu Thr Thr Arg Glu Arg lie Gin Leu Leu Glu Glu Trp Asn 
515 520 525 

Ala Thr Ala Ala Glu Phe Pro Ser Gin Cys Val His Glu Leu Phe Glu 
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530 535 540 

Ala Gin Val Glu Leu Thr Pro Asp Ala lie Ala Leu Ser Phe Gly Glu 
545 550 555 560 

Gin Asn Leu Thr Tyr Arg Glu Leu Asn Gly Ser Ala Asn Arg lie Ala 

565 570 575 

His Tyr Leu Arg Ser Arg Gly Ala Gly Pro Gly Glu Met Val Gly lie 
580 585 590 

His Val Thr Arg Ser Leu Glu Thr Val Ala Gly Leu Leu Gly Val Leu 
595 600 605 

Lys Ala Gly Ala Ala Tyr Val Pro Leu Glu Pro Glu Tyr Pro Ala Gin 
610 615 620 

Arg Leu Arg Leu Met Leu Glu Glu Thr Arg Pro Val Val Val Leu Asn 
625 630 635 640 

Val Thr Glu Ser Glu Val Trp Thr Gin Pro Asp Thr Asn Pro Asn Pro 

645 650 655 

Leu Ala Thr Pro Ala Asp Leu Ala Tyr Val Leu Tyr Thr Ser Gly Ser 
660 665 670 

Thr Gly Arg Pro Lys Gly Val Gin lie Thr His Gin Ala Val Val Asn 
675 680 685 

Phe Leu Ser Ser Met Arg His Glu Pro Gly lie Ser Asp Arg Asp Thr 
690 695 700 

Leu Leu Ala Leu Thr Thr Phe Met Phe Asp lie Ser Ala Leu Glu lie 
705 710 715 720 

Phe Leu Pro Leu Ser Ala Gly Ala Arg Val Val Val Ala Asn Gin Glu 

725 730 735 

Thr Ala Val Asp Gly Glu Arg Leu Ala Arg Glu Leu Ala Arg Ser Lys 
740 745 750 

Ala Thr Met Met Gin Ala Thr Pro Ala Thr Trp Arg Leu Leu Leu Ala 
755 760 765 

Ser Gly Trp Pro Gly Asp Arg Arg Leu Thr Ala Leu Cys Gly Gly Glu 
770 775 780 

Ala Leu Pro Arg Asp Leu Ala Asp Arg Leu Leu Gin Arg Thr Ala Ala 
785 790 795 800 
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Leu Trp Asn Leu Tyr Gly Pro Thr Glu Thr Thr lie Trp Ser Ala lie 

805 810 815 

Gin Arg Val Thr Thr Gly Asp Gly Pro Val Ser lie Gly Arg Pro lie 
820 825 830 

Ala Asn Thr Gin Leu Tyr Val Leu Asp Asp Arg Met Gin Pro Ala Pro 
835 840 845 

lie Gly Val Ala Gly Glu Leu Tyr lie Gly Gly Ala Gly Leu Ala Arg 
850 855 860 

Gly Tyr Leu Asn Arg Pro Glu Leu Ser Ala Asp Lys Phe Val Ala Asn 
865 870 875 880 

Ser Phe Asp Pro His Gly Thr Arg Leu Tyr Arg Thr Gly Asp Leu Ala 

885 890 895 

Arg Arg Gin Arg Asp Gly Ala Leu Glu Tyr Leu Gly Arg lie Asp His 
900 905 . 910 

Gin Val Lys lie Arg Gly Phe Arg lie Glu Thr Gly Glu lie Glu Ala 
915 920 925 

Ala Val Arg Ser His Pro Ala Val Arg His Ala Val Val Thr Ala Arg 
930 935 940 

Glu Asn Asp Ala Ala Gly Lys Tyr Leu Ala Ala Tyr lie Val Pro Leu 
945 950 955 960 

Ala Asp Gly His Arg Ala Thr Ala Ala Ala Asp Thr Phe His Asp Arg 

965 970 975 

Val Glu Ser Glu His Val Thr Gin Trp Gin Ser Val Trp Asp Thr Thr 
980 985 990 

Tyr Glu Gin Asn Ala Pro Asn Ala Asp Pro Glu Phe Asn lie Val Gly 
995 1000 1005 

Trp Arg Ser Ser Val Thr Gly Glu Pro lie Pro Ala Ala Glu Met Arg 
1010 1015 1020 

Glu Trp Val Gin Asp Ser Val Asp Arg lie Leu Ala Ser Arg Pro Arg 
1025 1030 1035 1040 

Arg Val Leu Glu lie Gly Cys Gly Thr Gly Leu Leu Leu Phe Arg Val 
1045 1050 1055 

Ala Pro His Cys Ser Glu Tyr Trp Ala Thr Asp Phe Ser Gin Lys Ala 
1060 1065 1070 
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Leu Asp Tyr lie Ala Ala His Ala Asp Arg Thr Gly Leu Ala Asn Val 
1075 1080 1085 

Arg Thr Phe Arg Gin Ala Ala Asp Asp Ala Cys Glu lie Asp Ser Arg 
1090 1095 1100 

Ser Cys Asp Ala Val Val Leu Asn Ser Val lie Gin Tyr Phe Pro Gly 
1105 1110 1115 1120 

Glu Ala Tyr Leu Arg Arg Val Leu Ala Glu Ala Val Arg Val Val Lys 
1125 1130 1135 

Pro Gly Gly lie Val Phe Val Gly Asp Val Arg Ser Leu Pro Leu Leu 
1140 1145 1150 

Glu Thr Phe Tyr Ala Ser Leu Glu Val Gin Arg Ala Pro Ala Ser Leu 
1155 1160 1165 

Thr Arg Asn Glu Phe Arg Gin Arg Val Arg Ser Leu Ala Ser Gin Glu 
1170 1175 1180 

Glu Glu Leu Val Val Asp Pro Ala Phe Phe Phe Ala Leu Arg Glu Gin 
1185 1190 1195 1200 

lie Pro Glu lie Gly Arg lie Glu lie Leu Pro Arg Arg Gly Arg Ser 
1205 1210 1215 

His Asn Glu Leu Thr Arg Phe Arg Tyr Gin Ala lie Leu His lie Gly 
1220 1225 1230 

Ser Arg Glu Ala Glu Glu Pro Glu Ser Asp Arg Arg Arg Cys Gin Thr 
1235 1240 1245 

Ala Ala Glu lie Arg Arg Val Leu Thr Asp Ala Gin Pro Glu Leu Ala 
1250 1255 1260 

Ala Phe Thr Glu lie Pro Asn Ala Arg Leu Thr Ala Glu Ser Ala lie 
1265 1270 1275 1280 

Val Thr Trp Met Asn Gly Asp Glu Ala Pro Glu Thr Leu Gly Glu Leu 
1285 1290 1295 

Arg Asp Arg Leu Arg Gin Thr Ser Pro Ser Gly Val Asp Pro Ala Asp 
1300 1305 1310 

Leu Trp Arg Met Asp Glu Asp Leu Pro Tyr Arg Val Ala lie Asp Trp 
1315 1320 1325 

Ser Ser His Gly Pro His Gly Arg Phe Asp Ala Thr Phe Cys Arg Ala 
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1330 1335 1340 

Ala Ala Gly Pro Pro Ala Ser Arg Pro Arg Arg Arg Leu Ala Gly Pro 
1345 1350 1355 1360 

Tyr Thr Asn Asp Pro Leu Arg Ala Val Tyr Thr Arg Thr Val Val Pro 
1365 1370 1375 

Gin Leu Arg Thr His Leu Lys Glu Lys Leu Pro Asp Tyr Met lie Pro 
1380 1385 " 1390 

Thr Ala Trp Val Val Leu His Glu Met Pro Leu Thr Pro Asn Gly Lys 
1395 1400 1405 

lie Asp. Arg Asn Ala Leu Pro Asp Pro Glu Pro Ser Arg Arg Ala His 
1410 1415 1420 

Ala Glu Ala Phe Thr Pro Pro Glu Thr Pro Val Glu Gin Val Leu Ala 
1425 1430 1435 1440 

His lie Trp Gly Glu Val Leu Gly Met Asp Gly lie Gly Val His Asp 
1445 1450 1455 

His Phe Phe Asp Ser Gly Gly His Ser Leu Leu Val Thr Gin Met lie 
1460 1465 1470 

Ala Arg Val Arg Asp Met Leu His Val Glu Val Pro Phe Arg Thr Val 
1475 1480 1485 

Phe Asn Ala Pro Thr Val Arg Gly Phe Ala Val Ala lie Gin Asp Gly 
1490 1495 1500 

Val Asp Pro Gly Trp Ala Arg Arg Ala Ala Asp Leu Leu lie Ala Val 
1505 1510 1515 1520 

Ser Gin Met Ser Asp Val Gin lie Glu Arg Met Met Ser Ala Ala Gin 
1525 1530 1535 

Asp 



<210> 122 
<211> 2766 
<212> PRT 
<213> bacterie 

<400> 122 

Met Gin Asn Ser Ser Pro Asn Thr lie Asp Leu Ser Leu Ala Arg Arg 
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15 10 15 

Gin Leu Leu Asp Arg Leu Leu Gin Glu Asn Ser Pro Glu His Arg lie 
20 25 30 

Pro Arg Arg Glu Asn Arg Asp Ala Ala Pro Leu Ser Leu Ala Gin Gin 
35 40 45 

Arg Leu Trp Phe Leu His Gin Leu Asp Pro Asp Ser Pro Ala Tyr Asn 
50 55 60 

lie Pro lie Ala Leu His lie Arg Gly Pro Leu Asp lie Arg Val Leu 
65 70 75 80 

Leu Arg Ser Leu Glu Ala Val Val Gin Arg His Glu Ser Leu Arg Ser 

85 90 95 

Cys lie Gly Gly Val Asp Gly Glu Ala Arg Gin Ser Leu Leu Ala Arg 
100 105 110 

Val Thr Leu Glu Leu Pro Val Val Gin Ala Asp Gly lie Ala Glu Ala 
115 120 125 

Arg Gin Met Ala Leu Arg Asp Ala Gin lie Pro Phe Asp Leu Arg Lys 
130 135 140 

Pro Pro Leu Leu Arg Thr Lys Leu lie Cys Leu Asp Asp Lys Gin Gin 
145 150 155 160 

lie Leu Leu Leu Thr Leu Ser His lie lie Ala Asp Ala Trp Ser Val 
165 170 175 

Glu Thr Phe Val Arg Asp Leu Thr Arg Ser Tyr Glu Ala Phe Val Gin 
180 185 190 

Gly Arg Pro Ser Pro Leu Met Glu Leu Pro lie Gin Tyr Gly Asp Trp 
195 200 205 

Ala Val His Gin Gin Thr Ser Leu Asn Gin Thr Ala Gin Gin Tyr Trp 
210 215 220 

Lys Lys Gin Leu Ser Gly Thr Leu Pro Phe Leu Asp Leu Pro Thr Asp 
225 230 235 240 

Arg Pro Arg Pro Ala Gin Gin Thr Trp Arg Gly Ala Val Glu Thr Thr 

245 250 255 

Ala Leu Gly Arg Asp Leu Thr Asp Gly Leu His Ala Phe Ala Leu Arg 
260 265 270 
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Glu Gly Ala Thr Val Phe Met Thr Ala lie Ala Ala Phe Gin Val Leu 
275 280 285 

Leu His Arg Tyr Thr Ala Gin Glu Asp lie Leu lie Gly Val Pro Val 
290 295 300 

Ala Gly Arg Thr Gin Arg Glu Thr Glu Gly Leu Val Gly Cys Phe Ala 
305 310 315 320 

Asn Met lie Val Leu Arg Gly Asp Leu Arg Asp Asp Pro Ser Phe Arg 

325 330 335 

Ser Leu Leu Ala Arg Thr Arg Asp Thr Ala Leu Ser Ala Leu Ser His 
340 345 350 

Gin Asp Phe Pro Phe Glu Arg Leu Val Glu Glu Leu His Pro Pro Arg 
355 360 365 

Asp Leu Ser Arg Ser Pro Val Phe Gin Val Ser Phe Ala Leu Leu Pro 
370 375 380 

Asp Ala Pro Ala lie Thr Val Met Pro Gly Leu Thr lie Ser Arg Glu 
385 390 395 400 

Tyr Met His Asn Gly Gly Ser Lys Leu Asp Leu Gly Val Thr Leu Glu 

405 410 415 

Pro Ser Gly Asp Gly Leu Met Ala Ser Ala Glu Tyr Asn Thr Asp Leu 
420 425 430 

Phe Asp Ala Ala Thr lie Ala Ser Leu Leu Asp Ala Tyr Arg Thr Leu 
435 440 445 

Leu Ala Ser Val Val Thr Asp Pro Asp Val Arg lie Ser Thr Ala Ala 
450 455 460 

Leu Leu Ser Pro Ala Val Arg Ser Arg Met Leu Glu Gin His Asn Ala 
465 470 475 480 

Thr Arg Arg Asp Ala Gly Pro Asn Gly Cys Ala His Glu Leu Val Glu 

485 490 495 

Ala Gin Ala Glu Arg Thr Pro His Ala Val Ala Val Val Phe Glu Asp 
500 505 510 

His Gin Leu Thr Tyr Ala Glu Leu Asn Ala Arg Ala Asn Arg Leu Ala 
515 520 525 

His Arg Leu Ser Ala Ser Gly Ala Gly Pro Gly Lys lie lie Ala Leu 
530 535 540 
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Ala Met Glu Arg Ser Leu Glu Met Val lie Ala Leu Leu Ala lie Leu 
545 550 555 560 

Lys Ser Gly Ser Ala Tyr Leu Pro Leu Asp Pro Ala His Pro Lys Asp 

565 570 575 

Arg Leu Ala Arg lie Leu Asp Glu Val Gin Pro His Ala Val Leu Thr 
580 585 590 

Gin Glu Ala Val Ala Glu Met Met Ala Met Met Ala Met Met Ala Val 
595 600 605 

Ala Val Glu Pro Glu Ala Ala Asn Leu Val Ser Gly Ser Lys Pro Asp 
610 615 620 

Asp Leu Ala Tyr lie lie Tyr Thr Ser Gly Ser Thr Gly Arg Pro Lys 
625 630 635 640 

Gly Val Glu lie Arg His Ser Ser Leu Val Asn Leu Leu Arg Ser Met 

645 650 655 

Gin Arg Glu Pro Gly Leu Thr Ala Ala Asp Gly Leu Val Ala Val Thr 
660 665 670 

Thr Val Ser Phe Asp lie Ala Gly Leu Glu lie Trp Leu Pro Leu lie 
675 680 685 

Thr Gly Ala Arg Val lie Val Ala Thr Arg Glu lie Val Val Asp Gly 
690 695 700 

Glu Arg Leu Thr Thr Leu Leu Asp Lys Ser Gly Ala Thr Val Met Gin 
705 710 715 720 

Ala Thr Pro Ser Gly Trp Arg Gin Leu Leu Asp Ser Gly Trp Lys Pro 

725 730 * 735 

Gly Lys Gly Phe Arg Val Phe Cys Gly Gly Glu Ala Leu Pro Pro Glu 
740 745 750 

Leu Ala Arg Arg lie Leu Asp Ser Gly Val Glu Leu Trp Asn Leu Tyr 
755 760 765 

Gly Pro Thr Glu Thr Thr lie Trp Ser Ala Val His Lys Thr Gin Arg 
770 775 780 

Leu Gly Ala Ser Asp Ser lie Val Pro lie Gly His Pro lie Asp Asn 
785 790 795 800 

Thr Gin Leu Tyr lie Leu Asp Ser Arg Met Glu Pro Val Pro Pro Gly 
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805 810 815 

Val Pro Gly Glu Leu Tyr lie Gly Gly Ala Gly Leu Ala Arg Gly Tyr 
820 825 830 

His Arg Asn Pro Glu Leu Thr Arg Glu Lys Phe Arg Glu Trp Arg Asp 
835 840 845 

Arg Gly Arg lie Tyr Ser Thr Gly Asp Leu Ala Arg Tyr Arg Ser Asp 
850 855 860 

Gly Ala Val Glu Cys Leu Gly Arg Val Asp Arg Gin lie Lys Leu Arg 
865 870 875 880 

Gly Phe Arg lie Glu Pro Ala Glu lie Glu Ala Ala lie Glu Thr. His 

885 890 895 

lie Ala Val Lys Gin Ala lie Thr Val Val Lys Asp Asp Arg Leu lie 
900 905 910 

Ala Tyr Leu Val Pro Ala Thr Gly Asp Val Arg Asp Leu Gin Ser Asp 
915 920 925 

Leu Arg Ser Trp Leu Ala Thr Arg Leu Pro Asp Tyr Met lie Pro Ser 
930 935 940 

Ala Phe Val Ser Leu Ser Ser Leu Pro Leu Thr Pro Asn Gly Lys lie 
945 950 955 960 

Asp Ala Asn Ala Leu Pro Gly Leu Pro Thr Thr Pro Val Ala Ala Arg 

965 970 975 

Glu Pro Met Arg Gly Asp Val Val Glu Thr lie Ala Ser lie Trp Arg 
980 985 990 

Glu Val Leu Arg Val Glu His Val Asp Tyr Arg Gin Asn Phe Phe Asp 
995 1000 1005 

Val Gly Gly His Ser Leu Met Leu Thr Arg Val Arg Gly Leu Leu Glu 
1010 1015 1020 

Glu Arg Leu Gly Leu Thr Leu Ser Val Val Asp Leu Phe Arg His Thr 
1025 1030 1035 1040 

Thr lie Glu Ser Leu Ala Gly Leu Ala Glu Lys Ser Glu Pro Ala Ala 
1045 1050 1055 

Ala Glu Pro Ala Ala Ala Val Ala Glu Asp Arg lie Ala Val lie Gly 
1060 1065 1070 
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Met Ala Gly Arg Phe Pro Gly Ala Arg Asn Val Glu Glu Phe Trp Arg 
1075 1080 1085 

Asn Leu Arg Asp Gly Val Asp Ser lie Ala Arg Leu Ser Pro Glu Asp 
1090 1095 1100 

Leu Leu Ala Gly Gly lie Ser Pro Glu Val Phe Gin Asp Pro Ser Tyr 
1105 1110 1115 1120 

Val Pro Ala Lys Gly Leu Leu Asp Gly lie Glu Phe Phe Asp Ala Ala 
1125 1130 1135 

Phe Phe Gly Tyr Ser Pro Arg Glu Ala Glu lie Met Asp Pro Gin His 
1140 1145 1150 

Arg Val Phe Leu Glu Cys Ala Trp Glu Ala Met Glu Asn Ala Gly Tyr 
1155 1160 1165 

Ala Ala Arg Ser Tyr Lys Gly Ser lie Gly Val Phe Ala Gly Cys Gly 
1170 1175 1180 

Val Asn Thr Tyr Leu Leu Asn Asn Leu Ala Thr Ala Glu Pro Phe Asp 
1185 1190 1195 1200 

Phe Ser Arg Pro Ser Ala Tyr Gin Leu Leu Thr Ala Asn Asp Lys Asp 
1205 1210 1215 

Phe Leu Ala Thr Arg Val Ser Tyr Lys Leu Asn Leu Arg Gly Pro Ser 
1220 1225 1230 

Leu Thr Val Gin Thr Ala Cys Ser Thr Ser Leu Val Ser Val Val Met 
1235 1240 1245 

Ala Cys Glu Ser Leu Gin Arg Gly Ala Ser Asp He Ala Leu Ala Gly 
1250 1255 1260 

Gly Val Ala He Asn Val Pro Gin Ser Val Gly Tyr Leu His Gin Pro 
1265 1270 1275 1280 

Gly Met He Leu Ser Pro Asp Gly Arg Cys Arg Ala Phe Asp Glu Ser 
1285 1290 1295 

Ala Gin Gly Thr Val Pro Gly Asn Gly Ala Gly Val Val Val Leu Lys 
1300 1305 1310 

Arg Leu Ser Arg Ala Leu Ala Asp Gly Asp Thr He Tyr Ala Val He 
1315 1320 1325 

Arg Gly Ala Ala He Asn Asn Asp Gly Ala Glu Arg Met Gly Phe Thr 
1330 1335 1340 



3DOCID: <WO 0140497A2_I_> 



WO 01/40497 PCT/FR00/03311 

I 14 



Ala Pro Gly Val Asp Gly Gin Thr Arg Leu lie Arg Arg Thr Gin Glu 
1345 1350 1355 1360 

Met Ala Gly Val Lys Pro Glu Ser lie Gly Tyr lie Glu Ala His Gly 
1365 1370 1375 

Thr Ala Thr Pro Leu Gly Asp Pro Val Glu lie Ala Ala lie Ala Ala 
1380 1385 1390 

Asn Phe Pro Lys Asn Gly Ser Gly Asp Val Tyr lie Gly Ser Val Lys 
1395 1400 1405 

Thr Asn lie Gly His Leu Asp Val Ala Ala Gly Val Ala Gly Leu lie 
1410 1415 1420 

Lys Thr Val Leu Ala Val His Arg Gly Gin lie Pro Pro Ser Leu Asn 
1425 1430 1435 1440 

Phe Gin Arg Pro Asn Pro Arg He Asp Phe Ala Asn Thr Pro Phe Arg 
1445 1450 1455 

Val Ser Thr Arg Leu Leu Asp Trp Pro Ala Gly Lys Thr Pro Arg Arg 
1460 1465 1470 

Ala Ala Val Ser Ser Phe Gly He Gly Gly Thr Asn Ala His Val He 
1475 1480 1485 

Leu Glu Gin Ala Pro Pro Val Thr Pro Ala Ala Ala Ala Pro Glu Arg 
1490 1495 1500 

Ser Ala His Val Leu Cys Leu Ser Ala Asn Thr Asp Ala Ala Leu Glu 
1505 1510 1515 1520 

Glu Leu Val Arg Ser Tyr Arg Gly His Met Asp Asn Gin Pro Gly Leu 
1525 1530 1535 

Ser Phe Gly Asp Val Ala Phe Thr Ala Asn Ala Gly Arg Val His Phe 
1540 1545 1550 

Pro His Arg He Cys He Val Ala Arg Ser Ser Asp Glu Ala Arg Gin 
1555 1560 1565 

Arg Leu Thr Glu Ala Arg Arg Val Arg He Ala Gin Thr Arg Pro Lys 
1570 1575 1580 

He Ala Phe Leu Phe Thr Gly Gin Gly Ala Gin Tyr Ala Gly Met Gly 
1585 1590 1595 1600 

Arg Gin Phe Tyr Glu Ser Gin Pro Val Phe Arg Ala Ala Met Asp Glu 
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1605 1610 1615 

Cys Ala Ala Leu Leu Asn Gly Arg Leu Asp Leu Pro Ala Leu Leu Ala 
1620 1625 1630 

Asp Asp Ala Leu Leu Asp Ala Thr Ala Gly Ala Gin Pro Ala Leu Phe 
1635 1640 1645 

Ala Leu Gin Trp Ala Leu Ala Gin Leu Trp Lys Ser Trp Gly Val Thr 
1650 1655 1660 

Pro Asp Leu Val Met Gly His Ser Val Gly Glu Tyr Ala Ala Ala Cys 
1665 1670 1675 1680 

lie Ala Gly Ala Val Ser Leu Pro Asp Ala Leu Gly Leu Val Ala Glu 
1685 1690 1695 

Arg Gly Arg Leu Met Gin Asn Leu Pro Glu Gly Ala Met Ala Ala Val 
1700 1705 1710 

Ser Ala Gly Glu Gin Arg Cys Ala Ala Ala lie Thr Ser Arg Val Ser 
1715 1720 1725 

lie Ala Ala lie Asn Gly Pro Ala Glu Val Val lie Ser Gly Ala Pro 
1730 1735 1740 

Gin Asp lie Glu Ser Ala Leu Ala Thr Leu Arg Ala Glu Gly lie Lys 
1745 1750 1755 1760 

Thr Gin Met Leu Ala Val Ala Arg Ala Phe His Ser Ser Ser Met Asp 
1765 1770 1775 

Pro lie Leu Ala Asp Leu Gin Arg Arg Ala Ala Ala lie Ala Trp Arg 
1780 1785 1790 

Asn Pro Ser lie Gly Leu Val Ser Asn Leu Thr Gly Lys Leu Ala Gly 
1795 1800 1805 



Glu Gly Gin Leu Ala Asn Pro Leu 
1810 1815 

Pro Val Arg Phe Ala Asp Gly lie 
1825 1830 

Asp Val Phe Leu Glu lie Gly Pro 
1845 



Tyr Trp Arg Asp His Ala Arg Asn 
1820 

Gin Thr Leu Lys Asp Glu Gly Cys 
1835 1840 

Lys Pro Val Leu Leu Gly Met Gly 
1850 1855 



Gin Lys Cys Leu Pro Asp Asp Ala Lys Gin Trp Leu Pro Ser Leu Arg 
I860 1865 1870 
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Lys Gly Arg Asp Glu Trp Glu Thr lie Leu Ser Ser Val Ala Thr Leu 
1875 1880 1885 

Tyr Gin Gly Gly Phe Asp lie Asp Trp Gin Glu Phe Asp Arg Pro Tyr 
1890 1895 1900 

Ser Arg Arg Arg Val Ala Leu Pro Ala Tyr Pro Phe Glu Arg Arg Arg 
1905 1910 1915 1920 

His Trp lie Glu Arg Ser Ser Arg Pro Glu Pro Val Ala Val Ala Ser 
1925 1930 1935 

Gly Leu Val Gly Cys Arg Leu Ser Leu Pro Val Ala Asp Val lie Phe 
1940 1945 1950 

Glu Ser Lys Leu Ser Thr Ala Ser Pro Leu Leu Ser Asp His Arg Tyr 
1955 1960 1965 

Tyr Gly Ser Val Val Ala Pro Ala Val Tyr Phe Leu Ala Met Ala Leu 
1970 1975 1980 

Glu Ala Ser Ala Glu Val Phe Gly Ala Gly Arg His Thr Leu Glu Asn 
1985 1990 1995 2000 

Val Asn Phe Ala His Pro Leu lie Leu Ser Ala Glu Arg Asp Thr Ala 
2005 2010 2015 

Val Gin Leu Val Leu Ser Gin Ser Asp Asp Arg His Ala Ser Phe Arg 
2020 2025 2030 

lie Leu Ser Leu Ser Asp Gly Ser Trp Asn Leu His Ala Ala Gly Asn 
2035 2040 2045 

lie Ala Ala His Ala Gly Val Ala Pro Val Pro Arg Leu Val Asp Glu 
2050 2055 2060 

Arg Arg Pro Ala Val Asp Gly Asp Thr Tyr Tyr Ser Leu Leu Arg His 
2065 2070 2075 2080 

Leu Glu lie Glu Leu Gly Pro Ser Tyr Arg Arg lie Gin Arg lie His 
2085 2090 2095 

Phe Gly Glu Gin Glu Ala Leu Ala Ala lie Asp Ser Ala Thr Pro Leu 
2100 2105 2110 

Asn Pro Arg Cys Glu Leu Ala Glu Ala Gly Leu Gin Leu Leu Ser Ala 
2115 2120 2125 

Ala Ala Ser Pro Ala Leu Ala Asp Gly Ala Glu His Pro lie Phe Ala 
2130 2135 2140 
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Pro Leu Gly lie Asp Arg Val Cys Phe Tyr Gly Ser Leu Glu Gly Ala 
2145 2150 2155 2160 

Val Trp Gly Ala Ala Gin lie Leu Arg His Ser Pro Asp Gly Phe Thr 
2165 2170 2175 

Gly Glu Ala Gin Leu Leu Asp Ser Glu Gly Cys Val Leu Gly Glu Leu 
2180 2185 2190 

Gin Gly Val Ser Phe Arg Arg Val Thr Arg Ala Trp Ala Gin Arg Ser 
2195 2200 2205 

Glu Arg Lys Pro Glu Leu Tyr Glu Val Glu Trp Arg Pro Glu Pro Leu 
2210 2215 2220 

Arg Gin Pro Ser Arg Thr Leu Gin Pro Gly Ala Trp Leu lie Leu Ala 
2225 2230 2235 2240 

Asp Ser Gly Gly Ala Ala Arg Ala Leu Ala Asp Ala Leu Thr Ala Gin 
2245 2250 2255 

Gly Glu Met Cys Val Thr Val Pro Pro Ala Gly Glu Tyr Met Ser Leu 
2260 2265 2270 

Val Gly Glu Arg Asp Trp Arg Gly lie Val Asn Leu Tyr Ser Leu Asp 
2275 2280 2285 

Asp Tyr Glu Leu Gly Cys Arg Ser Thr Leu Ala Leu Val Lys Ser Leu 
2290 2295 2300 

Lys Ser Gly Pro Arg Leu Trp Leu Val Thr Ala Gly Ala Gin Ala Thr 
2305 2310 2315 2320 

Ser Ala Val His Asn Pro Met Gin Ala Ala Leu Trp Gly Phe Gly Arg 
2325 2330 ~ 2335 

Val lie Ala Arg Glu His Pro Asp Leu Trp Gly Gly Leu lie Asp Leu 
2340 2345 ' 2350 

Asp Pro Asp Asp Ala His Ala Ser Ala Ala Gly Ala Ala Ala Gin Met 
2355 2360 2365 

Arg Asp Phe Asp Gly Glu Asp Gin Ser Ala Trp Arg Ser Asn Arg Arg 
2370 2375 2380 

Tyr Val Pro Arg Leu Thr Arg Arg Pro Ser Ala Arg Ala Ala Val Arg 
2385 2390 2395 2400 

Leu Val Ser Gly Ala Thr Tyr Leu lie Thr Gly Gly Leu Gly Ala Leu 
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2405 2410 2415 

Gly Leu Thr Val Ala Lys Trp Met Val Glu His Gly Ala Thr Arg Val 
2420 2425 2430 

Val Leu Ala Gly Arg Arg Pro Pro Asn Glu Glu Gin Gin Arg Val Leu 
2435 2440 2445 

Gin Gin lie Gly Ala Thr Ala Glu Thr Val Asp Val Ser Arg Glu Glu 
2450 2455 2460 

Glu Val Ala Asp Leu lie Arg Arg lie His Thr Glu Thr Ser Pro Leu 
2465 2470 2475 2480 

Arg Gly Val He His Ala Ala Gly Val Leu Asp Asp Gly Val Leu Leu 
2485 2490 2495 

Asn Gin Asp Trp Thr Arg He Ala Ser Val Met Ala Pro Lys Ala Glu 
2500 2505 2510 

Gly Ala Val His Leu His His His Thr Arg Asp Leu Pro Leu Asp Phe 
2515 2520 2525 

Phe Val Leu Phe Ser Ser Ala Ser Ser Leu Leu Gly Pro Ala Gly Gin 
2530 2535 2540 

Ala Gly Tyr Ala Ala Ala Asn Ala Val Leu Asp Ala Leu Ala His His 
2545 2550 2555 2560 

Arg Arg Gly Leu Gly Leu Pro Ala Thr Ser He Asn Trp Gly Arg Trp 
2565 2570 2575 

Ser Gly Ala Gly Met Ala Ala Arg Thr Ser Gin Ser Met Ala Gly Val 
2580 2585 2590 

Ala Ser Leu Ser Val Asp Glu Gly Leu His He Leu Glu Ala Val Leu 
2595 2600 2605 

His Glu Cys Pro He Gin He Ala Ala Leu Pro Ala Gly Ser He Thr 
2610 2615 2620 

Gly Glu Leu Leu Arg Pro Ala Ala Leu Pro Ser Pro Gin Leu Arg Thr 
2625 2630 2635 2640 

Arg Leu Asn Glu Ala Thr Pro Arg Gin Arg Glu Ala He Leu He Ala 
2645 2650 2655 

His He Arg Glu Ser Leu Ala Arg Phe Val Gly He Ala Thr Ser Thr 
2660 2665 2670 
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Pro Leu Asp Pro Gin Gin Pro Leu Gly Glu Leu Gly Leu Asp Ser Leu 
2675 2680 2685 

Met Ala lie Glu Leu Arg Asn Ser Leu Ser Gin Ser Leu Gly Gin Pro 
2690 2695 2700 

Leu Pro Ala Ser Leu Leu Phe Asp Tyr Pro Ser Leu Asp Ala lie Val 
2705 2710 2715 2720 

Ser Tyr Val Leu His Ala Val Phe Pro Pro Glu Ala Ser Pro Val Glu 
2725 2730 2735 

Ala Pro Glu Phe Glu Asn Leu Ala Arg Glu Glu Leu Glu Ala Leu Leu 
2740 2745 2750 

Asp Ser Arg Leu Ala Gin Val Asp Gin Trp Leu Glu Thr Gin 
2755 2760 2765 



<210> 123 

<211> 1763 

<212> PRT 

<213> bacterie 



<400> 123 
Met Ser Gly Ser 
1 

Leu Asp Lys Val 
20 

Glu Pro He Ala 
35 

Asn Leu Asp Ala 
50 

Arg Glu Val Pro 
65 

Asp Pro Gly Ala 



Asp Gin Val Asp 
100 

Glu Ala He Ser 
115 



Asp Asp Leu Ser 
5 

Gin Lys Arg He 



Leu He Gly Ala 
40 

Tyr Trp Ser Leu 
55 

Pro Asp Arg Trp 
70 

Thr Gly Arg Met 
85 

Arg Phe Asp Ala 



Leu Asp Pro Gin 
120 



Lys Leu Arg Arg 
10 

Asp Gin Leu Glu 
25 

Gly Cys Arg Phe 



Leu Arg Glu Gly 
60 

Asp He Asp Ala 
75 

Tyr Thr Arg Tyr 
90 

Arg Phe Phe Gly 
105 

Gin Arg Leu Leu 



Ala Val He Ala 
15 

Ser Ala Arg Ser 
30 

Pro Gly Ala Ser 
45 

Arg Ser Ala Val 



Tyr Tyr Asp Pro 
80 

Gly Gly Phe He 
95 

He Ala Pro Arg 
110 

Leu Glu Val Thr 
125 
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Trp Glu Ala lie Glu Asn Ala Gly Leu Pro Pro Asp Arg Leu Ala Gly 
130 135 140 

Ser Arg Thr Gly Val Phe Met Gly lie Phe Ser Asn Asp Tyr Tyr Asn 
145 150 155 160 

Leu Gin Met Arg Gly Gly Asp Ala His He Asp Ala Tyr Thr Gly Thr 
165 170 175 

Gly Asn Thr Ala Ser Val Ala Ala Gly Arg Leu Ser Tyr He Leu Gly 
180 185 190 

Leu Gin Gly Pro Asn Met Ala He Asp Thr Ala Cys Ser Ser Ser Leu 
195 200 205 

Val Ala Val His Leu Ala Cys Gin Ser Leu Arg Ser Gly Glu Ser Asp 
210 215 220 

Leu Ala Leu Ala Gly Gly Val Asn Leu He Leu Ser Pro Asp Arg Thr 
225 230 235 240 

He Tyr Phe Cys Lys Leu Lys Ala Met Ala Ala Asp Gly Arg Cys Lys 
245 250 255 

Ala Phe Asp Ala Ala Ala Asp Gly Tyr Val Arg Gly Glu Gly Cys Gly 
260 265 270 

Val Val Val Leu Lys Arg Leu Ser Asp Ala Leu Arg Asp Arg Asp Pro 
275 280 285 

Val Met Ala Val He Arg Gly Thr Ala He Asn Gin Asp Gly Arg Ser 
290 295 300 

Asn Gly Leu Thr Ala Pro Asn Gly Pro Ala Gin Glu Ala Val He Arg 
305 310 315 320 

Gin Ala Val Gly Asp Ala Arg Leu Gin Thr Leu Asp Val Ser Tyr Val 
325 330 335 

Glu Ala His Gly Thr Gly Thr Pro Leu Gly Asp Pro He Glu Ala Gly 
340 345 350 

Ala Leu Ala Ala Ala Leu Gly Ala Gly Arg Thr Asn Gly Asn Lys Leu 
355 360 365 

Lys Leu Gly Ser Val Lys Thr Asn Phe Gly His Leu Glu Ala Ala Ala 
370 375 380 

Gly Val Ala Ala Leu He Lys Val Ala Leu Met Leu Gin Asn Glu Ala 
385 390 395 400 
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lie Pro Pro His Leu Asn Leu Thr Thr Pro Ser Pro His lie Asp Trp 
405 410 415 

Asn Thr Leu Pro Leu Glu lie Pro Ala Arg Leu Thr Pro Trp Pro Val 
420 425 430 

Ala Pro Gly Gly Arg Arg Val Ala Gly lie Asn Ser Phe Gly Leu Ser 
435 440 445 

Gly Thr Asn Ala His Val Leu lie Glu Gin Ala Pro Gin Gin Ala Ala 
450 455 460 

Ser Ser Thr Pro Ala Pro Tyr Leu Leu Pro Leu Ser Ala Arg Ser Pro 
465 470 475 480 

Glu Ala Leu Arg Asp Leu Ala Arg Ala Tyr Arg Asp Val Val Asn Asp 
485 490 495 

Asn Pro Ala Asp Thr Cys Tyr Thr Ala Cys Ala Arg Arg Thr Ser Tyr 
500 505 510 

Glu His Arg Ala Ala Phe Thr Gly Thr Asn Ala Gin Asp Leu Met Ala 
515 520 525 

Gly Leu Asp Ser Phe Leu Ala Gly Asn Pro Asn Arg Asp Thr Ala Thr 
530 535 540 

Gly Phe Val Pro Arg Gly Gin Lys Arg Lys Val Val Phe Val Leu Pro 
545 550 555 560 

Gly Gin Gly Ser Gin Trp Pro Gly Met Gly Arg Asp Leu Met Ala Ser 
565 570 575 

Glu Pro Val Phe Arg Ala Ala He Glu Glu Cys Gly Arg Ala Met Gin 
580 585 590 

Pro Tyr Val Asp Trp Ser Leu Thr Gin Glu Leu Gin Gly Pro Leu Asp 
595 600 605 

Arg He Asp Val He Gin Pro Ala Leu Phe Ala Val Gly Val Ala Leu 
610 615 620 

Ala Gly Leu Trp Arg His Trp Gly He Glu Pro Asp Ala Val He Gly 
625 630 635 640 

His Ser Met Gly Glu Val Ala Ala Ala His He Ala Gly Ala Leu Thr 
645 650 655 

Leu Asp Glu Ala Ala Arg Val He Cys Leu Arg Ser Arg Met Leu Ala 
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660 665 670 

Gly Val Arg Gly Gin Gly Glu Met Ala Val Val Glu Leu Ala Leu Asp 
675 680 685 

Glu Ala lie Ala Ala lie Ala Gly Arg Ser Asp Arg Val Ser lie Ala 
690 695 700 

Ala Ser Asn Ser Pro Arg Ser Thr Val Leu Ser Gly Asp Ser Ala Ala 
705 710 715 720 

Leu Gly Glu Leu Leu Arg Glu Leu Glu Ala Lys Asp Val Phe Cys Arg 

725 730 735 

Arg Val Lys Val Asp lie Ala Ser His Ser His Leu Met Asp Ser Val 
740 745 750 

Cys Ala Ala Leu Pro Gly Val Val Gly Ala Leu Gin Pro Arg Pro Ala 
755 760 765 

Ala Leu Gly Met Tyr Ser Thr Val Thr Gly Ala Ala lie Ser Gly Glu 
770 775 780 

Glu Leu Val Ser Ala Tyr Trp Ala Arg Asn Leu Arg Gin Pro Val Met 
785 790 795 800 

Leu Ser Thr Ala Val Ala Ala Ala Ala Ala Gly Gly His Asp Val Phe 

805 810 815 

Leu Glu Leu Ser Pro His Pro Leu Leu Val Gin Pro lie Gin Glu Thr 
820 825 830 

Leu Gly Asp Arg Ala Ala lie Ala Ala Ala Ser Leu Arg Arg Asp Glu 
835 840 845 

Asp Gly Asn Leu Ala Leu Arg Arg Thr Leu Gly Ala Leu Leu Thr Asn 
850 855 860 

Gly Val Thr Pro Asp Trp Ser Arg lie Tyr Pro Asn Gly Gly Gin Thr 
865 870 875 880 

Arg Arg Leu Pro Asn Tyr Pro Trp Gin Arg Glu Arg Tyr Trp lie Asp 

885 890 895 

lie Arg Pro Pro Gin Val Glu Ser Gin Ala Leu Pro Gly Arg Arg lie 
900 905 910 

Pro Ser Pro Leu Pro Glu Met Gin Phe Glu Ser Thr Val Glu Ala Lys 
915 920 925 
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Asp Phe Ala Asp His Arg Leu His Asp Val lie Val Thr Pro Gly Ala 
930 935 940 

Trp His Leu Ala Met Ala Leu Ala Ala Ala Arg Gin Gly Leu Gly Ala 
945 950 955 960 

Gly Pro His His Val Glu His Val Ser Leu Thr Gly Ala Leu Thr Leu 

965 970 975 

Pro Glu Asn Asp Ala Ala Arg Gin Val Gin Leu Val Leu Arg His Glu 
980 985 990 

Glu Gly Gly Gly Ala Ser Phe Arg lie Tyr Ser Arg Glu Asp Ser Trp 
995 1000 1005 

Lys Leu His Ser Glu Gly Met Leu Gin Ala Gly Asp Ser Thr Ala Ser 
1010 1015 1020 

lie Asp Leu Asp Ala lie Arg Ala Arg Cys Thr Ala Glu Leu Thr Ala 
1025 1030 1035 1040 

Asp Ala Phe Tyr Ser Arg Leu Trp Asp Arg Gly Tyr His Phe Gly Pro 
1045 1050 1055 

Thr Phe Arg Thr lie Gly Pro lie Trp Arg Gly Asn Gly Glu Val Leu 
1060 1065 1070 

Cys Arg Val Asp lie Pro Leu Thr Glu Met Gin Thr lie Asp Cys Cys 
1075 1080 1085 

Leu Gin Leu Pro Ala Ala Leu Val His His Asp Asp Leu Lys Asp Val 
1090 1095 1100 

His Val Pro Val Gly Leu Asp Arg Phe Ser Leu Ala Glu Val Pro Thr 
1105 1110 1115 1120 

Gly Pro Val Trp Gly Tyr Ala Val Leu Arg Pro Asp Ser Thr Val Asp 
1125 1130 1135 

Val Arg Leu Val Thr Gly Thr Gly Ser Val Val Ala Glu Leu Val Gly 
1140 1145 1150 

Leu Gin Ser Arg Val Ala His Ser Gly Gin Leu Gly Glu Ser Glu lie 
1155 1160 1165 

Pro Thr Trp Thr Val Gin Trp Thr Ala Ser Val Arg Arg Gly Asp Ala 
1170 1175 1180 

Asn Ala Gly Asn Ala Gly Gly Pro Trp Leu Val lie Gly Glu Pro Ala 
1185 1190 1195 ' 1200 
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lie Ala Glu Thr Leu Gin Lys Arg Gly Gin Thr Cys Arg Thr Ala Asp 
1205 1210 1215 

Thr Cys Ser Gly Pro Pro Cys Arg Gin lie Val Tyr Cys Pro Ser Pro 
1220 1225 1230 

Arg lie Asp Asp Leu Leu Ser Val Leu Arg Ser lie Val Gin Ala Gly 
1235 1240 1245 

Trp Pro Glu Pro Pro Arg Leu Trp Leu Leu Thr Arg Gly Ser Ala Ala 
1250 1255 1260 

Val Leu Asn Ser Asp Lys Asp lie Asp lie Arg Gin Ala Trp Leu His 
1265 1270 1275 1280 

Gly lie Gly Arg Thr lie Ala Tyr Glu His Pro Glu Leu Arg Cys Thr 
1285 1290 1295 

Leu Val Asp Leu Asp Ala His Ser Asn Asp Cys Gly His Leu Ala Thr 
1300 1305 1310 

Leu Met Leu Ser Asn lie Ala Glu Asp Gin Val Ala lie Arg Gin Gly 
1315 1320 1325 

Thr Val Trp Ala Pro Arg Leu Ser Leu His Lys lie Pro Ser Ala Pro 
1330 1335 1340 

Asp Val Ala Phe Arg Ala Asp Ala Thr Tyr Leu lie Thr Gly Gly Leu 
1345 1350 1355 1360 

Gly Gly Leu Gly Leu Gin Val Ala Gly Trp Leu Ala Ala Ala Gly Ala 
1365 1370 1375 

Arg His Leu Val Leu Leu Gly Arg Ser Glu Arg Pro Arg Pro Gin Leu 
1380 1385 1390 

Glu Gly Val Asn Val Lys lie lie His Ala Asp Val Ala Asp Arg Gin 
1395 1400 1405 

Gin Leu Ser Asp Ala Leu Ala lie lie Asp Arg Asp Met Pro Pro Leu 
1410 1415 1420 

Arg Gly Val Phe His Leu Ala Gly Thr Leu Ala Asp Gly Met Leu Leu 
1425 1430 1435 1440 

Asn Leu Thr Thr Glu Arg Phe Glu Ala Ala Met Ala Pro Lys Val Ala 
1445 1450 1455 

Gly Ala Trp Asn Leu His Glu Leu Thr Ala Gly Arg Pro Leu Asp His 
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1460 1465 1470 

Phe Val Leu Phe Ser Ser Ala Ser Ala Thr Val Gly Ser Pro Gly Gin 
1475 1480 1485 

Gly Asn Tyr Ala Ala Gly Asn Ser Phe Leu Asp Ala Leu Ala His Leu 
1490 1495 1500 

Arg Arg Ala Gin Gly Leu Pro Ala Val Ser He Ala Trp Gly Pro Trp 
1505 1510 1515 1520 

Thr Gin Val Gly Leu Ala Ala Gin Ala Asn Arg Gly Asp Arg Leu Ala 
1525 1530 1535 

Ala Arg Gly He Ser Val He Gin Pro Gin Gin Gly Leu Arg Ala Leu 
1540 1545 1550 

Tyr Lys Ala Leu Thr Gin He Arg Pro His Val Ala Val Met Asn Phe 
1555 1560 1565 

Asp He Ala Gin Trp Leu Arg Tyr Tyr Pro Ser Ala Ala Ser Met Ser 
1570 1575 1580 

Leu Leu Ala Gly He Ala Pro Ala Ala Ala Asp Thr Lys Pro Ala Ala 
1585 1590 1595 * 1600 

Asp Met Arg Ser Glu Leu Leu Ala Val Pro Ala Gly Arg Gin Arg Arg 
1605 1610 1615 

Ala Arg Leu Glu Thr Leu Leu Met His Glu Ala Gly His Val Leu Arg 
1620 1625 1630 

Phe Asp Pro Ala Lys Leu Asp Gly Arg Ala Thr Leu Gly Asp Leu Gly 
1635 1640 1645 

Phe Asp Ser Leu Met Ala Leu Glu Phe Arg Asn Arg Leu Glu Ala Gly 
1650 1655 1660 

Leu Arg Val Lys Leu Ser Ala Thr Leu He Trp Arg Tyr Pro Thr Phe 
1665 1670 1675 ~ ~ 1680 

Ser Ala Leu Ala Gin His Leu Ala Asp Lys Leu Gly Leu Pro Leu Glu 
1685 1690 " 1695 

Ser Met Ala Gly Asn Ala Glu Pro Ser Thr Val Ala Ala Val Ala Thr 
1700 1705 1710 

Leu Ala Thr Val Gly Thr Ala Ala Gly Glu Asp Arg Ser Pro Ala Ala 
1715 1720 1725 
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Ala Asp Asp Leu Asp Ala Val Ala Asn Gin lie Ala Gly Leu Gly Asp 
1730 1735 1740 

Lys Glu lie Glu Ala Leu Leu Lys Gin Lys Phe Ala His Phe Ser Gly 
1745 1750 1755 1760 

Ala Ser Glu 



<210> 124 
<211> 2153 
<212> PRT 
<213> bacterie. 



<400> 124 

Met Ser Ser lie Ser Glu Arg Phe Pro Asn Leu Thr Pro Leu Gin Gin 
15 10 15 



Ala Tyr Leu Thr 
20 

Arg Asp Ala Arg 
35 

Pro Gly Gly Asp 
50 

Val Asp Ala lie 
65 

Val Arg Arg lie 



Gin Ala Gly Phe 
100 

Gly lie Ser Pro 
115 

Leu Leu Glu Val 
130 

Glu Gly Leu Ser 
145 

Gin Ser Ser Asp 



Leu Glu His Met 



Glu Pro lie Ala 
40 

Gly Pro Asp Glu 
55 

Arg Glu Val Pro 
70 

Leu Lys Ser Leu 
85 

Leu Asp Ser lie 



Arg Glu Ala Val 
120 

Ala Trp Glu Ala 
135 

Gly Ser Arg Thr 
150 

Tyr Phe Trp Met 
165 



Gin Arg Arg Leu 
25 

He Val Gly Leu 



Phe Trp Gin Met 
60 

Pro Gly Arg Trp 
75 

Asn Pro Ala Thr 
90 

Asp Gly Phe Asp 
105 

Ser He Asp Pro 



Leu Glu Asp Ala 
140 

Gly Val Phe Val 
155 

Gin Thr Ala Asp 
170 



Asp Ala Ala Glu 
30 

Gly Cys Arg Phe 
45 

Leu Arg Ser Gly 



Asp Glu Glu Ser 
80 

Pro Val Lys He 
95 

Asn Asp Phe Phe 
110 

Gin Gin Arg Leu 
125 

Gly Gin Thr Met 



Gly He His Ser 
160 

Gly Ala Arg He 
175 
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Asp Pro Tyr Thr Ala Thr Gly Thr Ala His Ser Val He Ala Gly Arg 
180 185 190 

Leu Ser Tyr Leu Leu Asn Leu Gin Gly Pro Ser He Ala Leu Asp Thr 
195 200 205 

Ala Cys Ser Ser Ser Leu Ala Ala Val His Leu Ala Cys Gin Ser Leu 
210 215 220 

Arg Ser Gly Glu Cys Thr Leu Ala Val Ala Gly Gly Val Asn Leu Arg 
225 230 235 * 240 

Phe Ser Pro Glu Phe Met Tyr Ala Thr Ser Lys Met Gly Thr Ala Ser 

245 250 * 255 

Pro Ser Gly Arg Cys Arg Ala Phe Asp Ala Ala Ala Asp Gly He Val 
260 265 270 

Phe Gly Glu Gly Cys Gly Val Val Val Leu Lys Arg Leu Ser Asp Ala 
275 280 285 

Leu Ala Ala Gly Asp Arg Val Trp Ala Val Val Arg Gly Ser Ala Val 
290 295 300 

Asn Gin Asp Gly Arg Ser Ala Gly Leu Thr Ala Pro Asn Val Val Ser 
305 310 315 320 

Gin Gin Val Val He Arg Ser Ala Leu Ala Asn Ala Gly Val Ala Ala 

325 330 * 335 

Gin Gin He Gly Tyr He Glu Ala His Gly Thr Gly Thr Pro Leu Gly 
340 345 350 

Asp Pro He Glu He Glu Ala Leu Ala Glu Thr Val Gly Leu Pro Arg 
355 360 365 

Pro Val Gly Asp Val Cys Ala Val Gly Ser Leu Lys Ser Asn He Gly 
370 375 380 

His Leu Glu Gly Ala Ala Gly He Ala Gly Leu lie Lys Ala Val Leu 
385 390 395 400 

Ala Leu Ser His Glu Thr He Pro Pro Ser Leu His Val Arg Gin Leu 

405 410 415 

Asn Pro Asn He Arg Leu Glu Gly Thr Ser Leu Asp He Val Lys Glu 
420 425 430 

Val Arg Pro Trp Pro Ala Gly Ser Arg Arg Arg Phe Ala Gly Val Ser 
435 440 445 
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Ala Phe Gly Trp Ser 
450 

Ala Pro Thr Gly Arg 
465 

Pro Ala Ala Ala Ala 
485 

Gly Gly Thr Pro Asp 
500 

Asp Thr Ala Asp Thr 
515 

Thr Thr Gly lie Ala 
530 

Gly Ala Asp Glu Leu 
545 

Thr Ala Ser His Ala 

565 

Val Arg Arg Thr His 
580 

Ala Glu Glu Leu Ala 
595 

Arg Arg Lys Thr Val 
610 

Gly Met Gly Arg Ser 
625 

Leu Glu Arg Cys Glu 
645 

Lys Glu Glu Leu Ala 
660 

Leu Phe Ala Leu Gin 
675 

lie Glu Pro Asp Ala 
690 

Ala His Val Ala Gly 



Gly Thr Asn Ala His Val 
455 

Gly Glu Ala Ala Ser Gly 
470 475 

Arg Ala Ala Val Pro Leu 

490 

lie Ala Gly Thr Pro Asp 
505 

Pro Asp lie Ala Gly Thr 
520 

Asp Ala Met Tyr Val Leu 
535 

Arg Arg- Val Ala Arg Ala 
550 555 

Pro Ser Leu Arg Asp Leu 

570 

His Arg Cys Arg Leu Ala 
585 

Ala Gin Leu Gin Gly lie 
600 

Phe Val Phe Ser Gly Gin 
615 

Trp Met Asp Arg Glu Pro 
630 635 

Ala Ala Met Arg Pro Tyr 

650 

Lys Leu Asp Arg Val Glu 
665 

Val Ala He Ala Ala Leu 
680 

Val He Gly His Ser Met 
695 

Ala Leu Thr Leu Gin Asp 



Val Leu Glu Glu Ala 
460 

Phe His Ser Arg Pro 

480 

Ala Glu Gly Asp Thr 
495 

Thr Ala Asp Thr Pro 
510 

Ala Gly Thr Ala Ala 
525 

Pro Leu Ser Ala His 
540 

Tyr Gly Glu Leu Leu 

560 

Cys Tyr Thr Ala Ala 
575 

Val Ser Gly Arg Thr 
590 

Thr He Pro Ser Gin 
605 

Gly Ser Gin Trp He 
620 

Val He Arg Glu Ala 

640 

Val Asp Trp Ser Leu 
655 

Val He Gin Pro Ala 
670 

Trp Arg Ser Trp Gly 
685 

Gly Glu Val Ala Ala 
700 

Ala Ala Arg He lie 
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705 710 715 720 

Cys Ser Arg Ser Arg Leu Leu Ser Arg lie Ser Gly Leu Gly Gly Met 

725 730 735 

Ala Met Val Glu Leu Pro Leu Ala Glu Cys Glu Ala Val Leu Ser Thr 
740 745 750 

Tyr Thr Glu Arg Leu Ser Pro Ala Val Ser Asn Gly Pro Asn Ser Thr 
755 760 765 

Val lie Ser Gly Glu Val Glu Ala Leu Ala Glu Val Val Ala Thr Leu 
770 775 780 

Glu Arg Arg Gly Val Ser Cys Arg Pro Val Lys Val Asp Phe Ala Ala 
785 790 795 800 

His Ser Pro Gin Val Asp Pro Leu Cys Asp Glu Leu Leu Gin Ser Leu 

805 810 815 

Asp Gly lie Gin Pro Arg Pro Ala Thr lie Pro Phe Tyr Ser Thr Val 
820 825 830 

Thr Gly Ala Thr Leu Glu Thr Thr Ser Leu Asp Ser Thr Tyr Trp Ala 
835 840 845 

Arg Asn Leu Arg Ser Pro Val Leu Phe Trp Gin Gly lie Arg His Leu 
850 855 860 

Ala Asp Ser Gly His Asp Val Phe Leu Glu lie Ser Pro His Pro lie 
865 870 875 880 

Leu Leu Pro Ala lie Gly Gly Asn Ala Ala Leu Val Pro Ser Leu Arg 

885 890 895 

Arg Asp Gin Asp Glu Arg Gly Ser Met Leu Thr Ser Leu Gly Ala Leu 
900 905 910 

Tyr Glu Ala Gly His Thr Val Ala Trp Arg Thr Val Tyr Pro Ser Gly 
915 920 925 

Asn Cys Val Arg Leu Pro Arg Tyr Pro Trp Gin Arg Arg Arg Phe Trp 
930 935 940 

Leu Asp Ala Ser Pro Ala Arg His Ala lie Thr Leu Gly Asn Pro Leu 
945 950 955 960 

Leu Gly Lys Arg Val Glu Ala Ser Thr Gin Pro Gly Thr Phe Phe Trp 

965 970 975 
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Glu Thr Glu Leu Ser Leu Ala Ser Val Pro Trp Leu Ala Asp His Arg 
980 985 ' 990 

Val Gin Gly Glu Val Val Leu Pro Ala Thr Ala Tyr Leu Asp Met Ala 
995 1000 1005 

Leu Ala Gly Thr Ser Glu Thr Phe Gly Glu Ser Pro Cys Val Leu Glu 
1010 1015 1020 

His Val Thr Phe Thr Gin Met Leu lie Val Pro Arg Asp Gly Ser Met 
1025 1030 1035 1040 

Thr Leu Gin Leu Ala lie Ala Val Asp Arg Pro Gly Met Ala Ser Phe 
1045 1050 1055 

Arg lie Ser Ser Arg Gin Ala Ser Thr Trp Val Leu His Ala Ser Gly 
1060 1065 1070 

Asp lie Arg Gin Thr Pro Ala Asp Ala Ser Thr Val Pro Pro Asp Ser 
1075 1080 1085 

Ala Glu Thr Val Gin Ala Arg Cys Pro Thr Val Val Pro Ala Ala Glu 
1090 1095 1100 

Leu Trp Arg Gin Met Ala Glu His Gly Val Glu Tyr Gly Pro Ala Phe 
1105 1110 1115 1120 

Arg Ala Leu Glu Gin lie Trp Ser Cys Pro Gly Glu Ala lie Gly Arg 
1125 1130 1135 

Leu Arg Ser Ser Glu Thr Arg Ser Thr Ala Pro Ala Phe Leu Asp Ala 
1140 1145 1150 

Cys Leu Gin He He Ala Ala Ala Phe Gly Pro Ala Gly Gly Thr Trp 
1155 1160 1165 

Leu Pro Ala Gly He Asp Arg Met Arg Trp Leu His Pro Ala Arg Ser 
1170 1175 1180 

Val Val Trp Thr His Ala Arg Leu Glu Gly Pro He Ala Asp Leu Ser 
1185 1190 1195 1200 

Leu Leu Asp Gly Glu Gly Gin Leu Val Ala Arg He Glu Gly Leu Arg 
1205 1210 1215 

Leu Gin Arg Leu Asp Ala Ser Glu Arg He Asp Met Arg Gly Trp Leu 
1220 1225 1230 

His Glu Leu Arg Trp Val Ala Gin Pro His Ala Ala Ala Glu Pro Pro 
1235 1240 1245 
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Ala Ala Arg Ala Ala Arg Ser Trp Leu lie Val Gly Ala Val Asp Ser 
1250 1255 1260 

Ala Leu Thr Ala Trp Leu Arg Ala Thr Gly Asn Arg Val Thr Gin Thr 
1265 1270 1275 ~ 1280 

Ser Pro Glu Lys Leu Asp Glu Leu Gin Pro Pro Leu Glu Glu lie Val 
1285 1290 1295 

Phe Leu Leu Glu His Glu Pro Ser Cys Asp Arg lie Leu His Leu Leu 
1300 1305 1310 

Gin Thr Leu Gly Arg Thr Pro Trp Arg Gin Ala Pro Arg Leu Trp Leu 
1315 1320 1325 

Val Thr Arg Gly Ala Gin Pro Val Asp Gly Gin lie Leu Gin Ala Gly 
1330 1335 1340 

lie Ala Gin Ala Pro Phe Trp Gly Leu Gly Arg Thr Val His Tyr Glu 
1345 1350 1355 1360 

His Pro Glu Leu Asn Cys Thr Leu lie Asp Leu Asp Pro Ala Gly Gly 
1365 1370 1375 

Glu Glu Glu Leu Leu His Glu Leu Leu Thr Asn Asn Gly Glu Asn Gin 
1380 1385 1390 

He Ala Phe Arg Gly Gly Ala Arg Tyr Val Ala Arg Val Ala Arg His 
1395 1400 1405 

Glu Ala Asp Met Gin Pro Ala Met Phe Lys Ala Gly Asp Arg Pro Phe 
1410 1415 1420 

Arg Leu Glu He Asp Ala Pro Gly Val Leu Asp Arg Leu Arg Leu Arg 
1425 1430 1435 " 1440 

Ala Thr Ser Arg Arg Pro Pro Gin Ala Gly Glu Val Glu He Glu Val 
1445 1450 1455 

Cys Ala Ala Gly Leu Asn Phe Leu Asp Val Leu Leu Ala Leu Gly Val 
1460 1465 1470 

Met Pro Asp Asp Ala Pro Gly Ala He Ala Gly Ser Pro Arg Leu Gly 
1475 1480 1485 

Gly Glu Cys Ser Gly Arg He Val Ala Met Gly Lys Gly Val Thr Asp 
1490 1495 1500 

Phe Arg He Gly Asp Glu Val Val Ala Leu Ala Pro Cys Ser Phe Gly 
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1505 1510 1515 1520 

Arg Phe Val Thr Thr Pro Ala Phe Arg Val Ala Leu Lys Pro Ala Asn 
1525 1530 1535 

lie Pro Ala Glu Gin Ala Ala Ala Leu Pro lie Ala Phe Leu Thr Ala 
1540 1545 1550 

Asp Tyr Ala Leu Ser Arg Ala Ala Arg Leu Ala Pro Gly Glu Arg Val 
1555 1560 1565 

Leu lie His Ala Ala Thr Gly Gly Val Gly Leu Ala Ala lie Gin lie 
1570 1575 1580 

Ala Gin Arg Ala Gly Ala Glu lie .Phe Ala Thr Ala Gly Ser Pro Glu 
1585 1590 1595 1600 

Lys Arg Ala Tyr Leu Arg Ser Leu Gly lie Ala His Val Ser Asp Ser 
1605 1610 1615 

Arg Ser Met Ala Phe Val Asp Asp lie Arg Asn Trp Thr Asn Gin Glu 
1620 1625 1630 

Gly Val Asp Val Val Leu Asn Ser Leu Ser Gly Asp Leu Leu Glu Ala 
1635 1640 1645 

Ser Phe Asp Leu Leu Arg Asp His Gly Arg Phe lie Glu lie Gly Lys 
1650 1655 1660 

Arg Asp Tyr Tyr Ala Gly Arg Lys Leu Gly Leu Arg Pro Phe Leu Lys 
1665 1670 1675 1680 

Asn Leu Ser Tyr Thr Leu Val Asp Leu Leu Gly Met Ser Leu Lys Arg 
1685 1690 1695 

Pro Ala Leu Thr Arg Glu Leu Leu Gin Glu Met Val Ala Lys Phe Glu 
1700 1705 1710 

Ser Glu Thr Trp Arg Pro Leu Glu Thr Arg Val Thr Thr lie Thr Glu 
1715 1720 1725 

Ser Val Glu Ala Phe Arg Thr Met Ala Gin Ala Arg His lie Gly Lys 
1730 1735 1740 

lie Val Met Ala Met Arg Asp Cys Ala Asn Ala Pro lie Ala Pro Leu 
1745 1750 1755 1760 

Arg Ser Ala Phe Asp Ser Glu Gly Thr Tyr Leu lie Thr Gly Gly Leu 
1765 1770 1775 
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Gly Gly Leu Gly Leu Thr Val Ala Arg Trp Met lie Gly Arg Gly Ala 
1780 1785 1790 

Arg Arg Leu Val Leu Leu Ser Arg Arg Ala Pro Ser Pro Glu Val Gin 
1795 1800 1805 

Gin Ala lie Ala Val Met Asp Ala Asp Val Arg Thr Val Gin Ala Asp 
1810 1815 1820 

Val Ser Gin Arg Asp Glu Leu Glu Arg Val lie Ser Ser lie Asp Arg 
1825 1830 1835 1840 

Leu Arg Gly Val lie His Ala Ala Ala Val Leu Asp Asp Ala Leu Leu 
1845 1850 ~ 1855 

Leu Asn Gin Thr Glu Ala His Phe Arg Asn Val Met Ala Ala Lys lie 
1860 1865 1870 

Asp Gly Ala Trp Asn Leu His Leu Leu Thr Arg Asp Cys Pro Leu Asp 
1875 1880 1885 

His Phe Val Leu Phe Ser Ser Ala Ala Gly Leu Leu Gly Ala Pro Ala 
1890 1895 1900 

Gin Gly Asn Tyr Ala Ala Ala Asn Ala Phe Leu Asp Ala Leu Ala Tyr 
1905 1910 1915 1920 

Tyr Arg Lys Ala Gin Gly Leu Pro Ala Leu Ser lie Gly Trp Gly Ala 
1925 1930 1935 

Trp Ser Glu Val Gly Leu Ala Ala Ala Gin Asp Asn Arg Gly Ser Arg 
1940 1945 1950 

Leu Ala Leu Arg Gly Met Glu Asn Leu Thr Pro Gin His Gly Leu Ala 
1955 I960 1965 

lie Leu Glu Gin Leu Leu Asn Ser Ser Ala Cys His Val Ala Ala Met 
1970 1975 * 1980 

Pro He Asn Val Arg Gin Trp Arg Gin Phe Tyr Pro Lys Ala Ala Gin 
1985 1990 1995 ~ 2000 

Ser Ala Leu Phe Glu Leu Leu His Asp Asp Ala Ala Ser Glu Ala Asp 
2005 2010 2015 

Ala Pro Asn Ala Leu Arg Ala Arg Leu Gin Ser Ala Glu Pro Gin Thr 
2020 2025 2030 

Arg Arg Thr Leu Leu Glu Glu His Leu Gin Gin Gin Leu Ala Arg Val 
2035 2040 2045 
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Leu Arg lie Asp Ser Gin Thr lie Asp Pro Leu Arg Pro Leu Lys Glu 
2050 2055 2060 

Leu Gly Phe Asp Ser Leu Met Ala Leu Glu Phe Arg Asn Arg Leu Glu 
2065 2070 2075 2080 

Leu Thr Leu Gly Leu Thr Leu Pro Ala Thr Leu lie Trp Gly His Pro 
2085 2090 2095 

Thr Leu Ala Gly Leu Ala Pro His Leu Ala Ser Gin Met Gly Leu Pro 
2100 2105 2110 

Leu Val Glu Ala Gin Ala Ala Ala Ala Ala Glu Gly Asp Ser Arg Ala 
2115 2120 2125 

Met Lys Thr Ala Leu Ser Gly Leu Asp Asp Met Ser Glu Glu Ala Ala 
2130 2135 2140 

Val Ala Ala Leu Arg Gly Ala Arg Ser 
2145 2150 



<210> 125 
<211> 1695 
<212> PRT 
<213> bacterie 

<400> 125 

Met Arg Glu Lys lie Ala Pro Met Ser Ser Val Lys Leu Ala Leu Leu 
15 10 15 

Ala Arg Asn Met Arg Gin Asn lie Ala Gly Phe Asp Leu Val His Ala 
20 25 30 

Glu Pro lie Ala lie Val Gly Met Ala Cys Arg Phe Pro Gly Gly Ala 
35 40 45 

Lys Asn Pro Asp Ala Phe Trp Thr Leu Leu Lys Asn Gly Val Asp Gly 
50 55 60 

Val Thr Glu Val Pro Pro Asp Arg Trp Asn Ser Asp Gin Tyr Tyr Ser 
65 70 75 80 

Ser Asp Pro Asp Ala Pro Gly Lys Ala Tyr Ala Arg Tyr Ala Ala Phe 

85 90 95 

Leu Glu Arg lie Asp Gly Phe Asp Ala Glu Phe Phe Gly lie Ser Pro 
100 105 110 
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Arg Glu Ala Leu Asn Met Asp Pro Gin Gin Arg Leu Leu Leu Glu Val 
115 120 125 

Cys Trp Glu Ala Ala Glu Asp Ala Gly lie Ser Pro Gly Pro Leu Ala 
130 135 140 

Gly Ser Ala Thr Gly Val Phe Ala Gly Ser Cys Ala Gin Asp Phe Gly 
145 150 155 160 

Leu Phe Gin Tyr Ala Asp Pro Ala Arg lie Gly Ala Trp Ser Gly Ser 
165 170 175 

Gly Val Ala His Ser Met Leu Ala Asn Arg lie Ser Tyr Leu Leu Asp 
180 185 190 

Leu Arg Gly Pro Ser Met Ala Val Asp Thr Ala Cys Ser Ser Ala Leu 
195 200 205 

Val Ala Val His Leu Ala Cys Gin Ser Leu Arg Arg Arg Glu Cys Asp 
210 215 220 

Ala Ala Phe Ala Gly Gly Val Asn Leu lie Leu Thr Pro Glu Gly Met 
225 230 235 240 

lie Ala Leu Ser Lys Ala Arg Met Leu Ala Pro Asp Gly Arg Cys Lys 
245 250 255 

Thr Phe Asp Ala Ala Ala Asp Gly Tyr Val Arg Gly Glu Gly Cys Gly 
260 265 270 

lie Val Leu Leu Lys Arg Leu Ser Asp Ala Leu Ala Asp Gly Asp Ala 
275 280 285 

lie Arg Ala Val lie Arg Gly Ser Ala He Asn Gin Asp Gly Arg Ser 
290 295 300 

Asn Gly He Thr Ala Pro Asn Leu Gin Ala Gin Lys Ala Val Leu Gin 
305 310 315 3 320 

Glu Ala Val Ala Asn Ala His He Asp Pro Ser His Val Ser Leu He 

325 330 335 

Glu Ala His Gly Thr Gly Thr Ser Leu Gly Asp Pro He Glu He Glu 
340 345 ~ 350 

Ala Leu Gin Ser Val Tyr Asp Ala Pro Asp Ser Ala Pro Cys Leu Leu 
355 360 365 

Gly Ser Val Lys Thr Asn He Gly His Leu Glu Gly Ala Ala Gly lie 
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370 375 380 

Ala Gly Leu lie Lys Ala Val Leu Ala Leu Gin His Arg Thr lie Pro 
385 390 395 400 

Pro His Leu His Phe Arg Arg Leu Asn Pro Asn lie Ser Leu Asp Gly 

405 410 415 

Ser Arg Phe Arg lie Ala Thr Glu Ser Ser Pro Trp Thr Ser Glu Gly 
420 425 430 

Arg Pro Arg Leu Ala Gly Val Ser Ser Phe Gly Phe Gly Gly Ser Asn 
435 440 445 

Ala His Val lie Leu Glu Glu Ala Pro Ala Leu Pro Leu Pro Lys Pro 
450 455 460 

Val Thr Arg Pro Gin Leu Leu Thr Leu Ser Ala Arg Thr Asp Glu Ala 
465 ~ 470 475 480 

Leu Gly Glu Leu Ala Gly His Phe Ala Glu Phe Leu Gin Ser His Pro 

485 490 495 

Asn Ala Leu Leu Ser Asp Val Cys Phe Thr Ser Gin Val Gly Arg Asp 
500 505 510 

Ala Tyr Ser His Arg Leu Ala lie Thr Ala Ala Asp Ala Ala Glu Ala 
515 520 525 

Val Ala Ala Leu Ala Ala Ala Pro Arg Arg Glu Val Ser Leu Arg Arg 
530 535 540 

Arg Pro Ala lie Ala Phe Leu Phe Thr Gly Gin Gly Ala Gin Tyr Ala 
545 550 555 560 

Gly Met Gly Ala Glu Leu Tyr Lys Thr Gin Pro Val Phe Arg Asp Ala 

565 570 575 

Leu Asp Arg Cys Ala Asp Trp Leu Arg Pro Gin Leu Asp Val Pro Leu 
580 585 590 

Thr Val Leu Leu Phe Glu Ser Val Ser Pro Leu His Glu Thr Ala Tyr 
595 600 605 

Thr Gin Pro Ala Met Phe Ala Leu Glu Trp Ala Leu Ala Gin Phe Trp 
610 615 620 

Leu Ser Leu Gly Val Arg Pro Asp Tyr Val Leu Gly His Ser Leu Gly 
625 630 635 640 
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Glu Tyr Val Ala Ala Cys Val Ala Gly Ala Phe Ser Val Glu Asp Gly 

645 650 655 

Leu Arg Leu Val Thr Ala Arg Gly Arg Leu Val Asn Ala Leu Pro Arg 
660 665 670 

Gly Lys Ala Val He Val His Ala Asn Pro Ser Arg He Ala Ala Leu 
675 680 685 

Ala Ala Lys Val Ala Val Ala Ala Ser Asn Ala Pro Asp Arg Thr Val 
690 695 700 

He Ser Gly Thr Ala Ala Glu He Ala Glu Ala Gin Asp Asp Leu His 
705 710 715 720 

Arg Ala Gly Val Glu Thr Arg Glu Leu Asn Val Ser His Ala Phe His 

725 730 735 

Ser Pro Leu Met Asp Pro He Leu Asp Lys Phe Glu Ala Leu Ala Gly 
740 745 750 

Ala He Ala Tyr Gin Pro Leu Ala He Pro Leu Val Ser Asn Val Ser 
755 760 765 

Gly Ala Val Leu Pro Lys Gly Thr Thr Leu Asp Ala Arg Tyr Trp Arg 
770 775 780 

Arg Gin Leu Arg Glu Thr Val Gin Phe Glu Ser Ala Met Arg Thr Leu 
785 790 795 800 

Ala Asp Arg Glu Cys Lys Leu Phe Leu Glu lie Gly Pro His Pro Thr 

805 810 815 

Leu Thr Thr Leu Gly Arg Tyr Cys Leu Pro Asp Asp Gly Ala Val Trp 
820 825 830 

Leu His Ser Leu Ser Lys Gly Arg Ser Asp Trp Ser Val Leu Leu Glu 
835 840 845 

Ser Leu Gly Gly Leu Phe Thr Ala Gly Val Asn Pro Asp Trp Arg Gly 
850 855 860 

Leu Tyr Ala Gly Glu Ser Pro Ser Arg Val Ala Leu Pro Thr Tyr Pro 
865 870 875 880 

Phe Gin Arg Asp Thr Phe Ser Leu Arg Arg Val Pro Ala Arg Glu Pro 
885 890 895 

Ala Arg Gly Gly Met Leu Gly Ala Arg Leu Asn Ser Ala Leu Gly Asp 
900 905 910 
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Val lie Phe Glu Asn Ser Leu Thr Thr Glu Thr Pro Leu Leu His Glu 
915 920 925 

His Val He Tyr Asp Ala Val He Val Pro Gly Ala Trp His Val Ser 
930 935 940 

Ala Phe Leu Glu Ala Ala Gin Glu Val Phe Gly Pro Val Pro Cys Ala 
945 950 955 960 

Val Ser Asp Val Met Met Arg Gin Ala Leu Ala He Pro Pro Asp Thr 

965 970 975 

Pro Val Thr Val Gin Ala He Val Thr Pro Gly Glu Asp Gly Glu Ala 
980 985 990 

Lys Val Gin Val Phe Ser Gin Asp Gly Asp Ser Trp Lys Leu His Thr 
995 1000 1005 

Ala Ala Ser Leu Arg Ala Ala Thr Ala Gly Ala Val His Phe Glu Leu 
1010 1015 1020 

Pro Ala Gin Pro Ser Glu Val He Ser Gly Asp Ala Phe Tyr Gly Ala 
1025 1030 1035 1040 

Met Asn Ala Arg Gly Val Asp Leu Gly Pro Ala Phe Ser Trp Val Glu 
1045 1050 1055 

Glu Val Trp Arg Arg Asp Gly Glu Ala Leu Gly Arg Met Arg Leu Pro 
1060 1065 1070 

Val Ala Glu Asp Gly Ala Asn Ala Tyr Arg Leu His Pro Gly Leu He 
1075 1080 1085 

Asp Ser Cys Phe Gin Val Phe Gly Ala Thr Trp Pro Ala Glu Arg Cys 
1090 1095 1100 

Gin Pro Gly Ala Tyr Val Pro Val Gly He Glu Ala Val Arg Phe Tyr 
1105 1110 1115 1120 

Arg Pro Pro Ala Gly Ser Leu Arg Cys His Ala Arg Leu Arg Pro Ser 
1125 1130 1135 

Ser Ser Gly Pro Phe Val Gly Asp Leu Thr Leu Val Glu Glu Thr Gly 
1140 1145 1150 

Ala Val He Ala Glu Phe Ser Gly Leu Ala Val Met His Ala Gly Thr 
1155 1160 1165 

Leu Gin Ser Ala Gin Ser Trp Leu Gin Asp Val Gin Trp Gin Glu Cys 
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1170 1175 1180 

Glu Arg Ser Thr Thr Leu Lys Ser Asp Gly Pro Gly Lys Pro Glu Asp 
1185 1190 1195 1200 

Trp Leu Leu Cys Ala Gly Ala Asp Asp Val Ala Gly Leu Met Pro Gin 
1205 1210 1215 

Glu Leu Arg Val Val Ser Gly Val Thr Leu Arg Gin Ala Leu Glu Gin 
1220 1225 1230 

Thr Gin Thr Leu Val Gly Arg Pro Ala Arg Leu Trp Leu lie Thr Arg 
1235 1240 1245 

Gly Val His Arg lie Ser Asp .Asp Asp Ala Thr Pro Val Asp Pro Phe 
1250 1255 1260 

Gin Ala Pro Leu Trp Gly Leu Gly Gin Ala lie Ala Arg Glu His Pro 
1265 1270 1275 ~ 1280 

Glu Leu Trp Gly Gly Leu lie Asp Leu Gly Cys Asp Asn Ala Asp lie 
1285 1290 1295 

Ala Ala Ala Met Leu Leu Asp Glu lie Arg Tyr Ala Gly Asp Asp Lys 
1300 1305 1310 

Ala lie Ala Leu Arg Asn Gly Arg Arg Tyr Val Arg Arg Leu Val Arg 
1315 1320 1325 

His Lys Glu Thr Ser Lys Arg Pro Pro Ala lie Ser Ala Asp Gly Val 
1330 1335 1340 

Tyr Leu lie Thr Gly Gly Leu Gly Ala Leu Gly Arg Arg Val Ala Arg 
1345 1350 1355 " 1360 

Arg Leu lie Glu Gin Gly Ala Arg Arg Leu Val Leu Val Gly Arg His 
1365 1370 1375 

Thr Glu Ala Val Ala Asp Leu Glu Gin Leu Gly Ala Ala Val Met Val 
1380 1385 1390 

Ala Ala Cys Asp Val Ser Ser Glu Gin Gin Leu Ala Ala Leu Leu Ala 
1395 1400 1405 

Asp Pro Arg Thr Gin Pro Leu Arg Gly Val Val His Ala Ala Gly Val 
1410 1415 1420 

Leu Asp Asp Gly Val Val Thr Glu Gin Thr Trp Ala Arg Phe Glu Lys 
1425 1430 1435 1440 
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Val Leu Ala Pro Lys Leu Gin Gly Ala Trp Asn Leu His Gin Leu Thr 
1445 1450 1455 

Arg His His Ala Leu Asp Phe Phe Val Leu Phe Ser Ser Ala Ala Ser 
1460 1465 1470 

Leu Leu Gly Ser Ala Gly Gin Ser Asn Tyr Ser Ala Ala Asn Ala Phe 
1475 1480 1485 

Leu Asp Ser Leu Ala His Met Arg Arg Ala Gin Gly Leu Pro Ala Leu 
1490 1495 1500 

Ser lie Asn Trp Gly Pro Trp Ala Gly Glu Gly Met Ala Ala Arg lie 
1505 1510 1515 1520 

Ala Arg Gin Gly Leu Pro Gly Val Pro Leu Leu Pro Pro Glu Val Gly 
1525 1530 1535 

Ala Arg lie Phe Gly Asp Leu Leu Gly Glu Thr Ala Ala Gin lie Ala 
1540 1545 1550 

Val Phe Gin Val Ser Ala Glu Lys Arg Arg Ser Pro Ala Ser Asp Pro 
1555 1560 1565 

Gly Phe lie Gin Gin Leu Thr Glu Ala Ala Pro Glu Arg Arg Gin Glu 
1570 1575 1580 

Leu Leu Gin Met Arg lie Arg Lys Gin Ala Gly Gly Val Leu Ala Leu 
1585 1590 1595 1600 

Asp Ala Ser Lys Thr Leu Asp Pro Arg Arg Pro Leu Lys Glu Tyr Gly 
1605 1610 1615 

Leu Asp Ser Leu Met Ala Leu Asp Leu Ala Arg Ala lie Gly Glu Leu 
1620 1625 1630 

Val Arg Lys Ser Leu Pro Ala Thr Leu Leu Tyr Asp His Pro Thr Val 
1635 1640 1645 

Glu Lys Leu Ala Gly His Val Leu Arg Glu Leu Gly Leu Asp Val Pro 
1650 1655 1660 

Ser Asp Ser Leu Val Asp Glu Val Arg Gin Leu Ser Glu Gin Glu Met 
1665 1670 1675 1680 

Ala Ala Phe lie Thr Glu Thr Leu His His Leu Gly Glu Glu Arg 
1685 1690 1695 
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<210> 126 

<211> 1434 

<212> PRT 

<213> bacterie 

<400> 126 

Met Ser Asp Leu Thr Pro Leu Gin Gin Ala Val Leu Ala Leu Lys Arg 
15 10 15 

Thr Arg Ala Arg Leu Asp Glu Leu Glu Ser Val His Asn Glu Pro lie 
20 25 30 

Ala lie Val Gly Met Ala Cys Arg Phe Pro Gly Ala Asp Ser Pro Glu 
35 40 45 

Ala Phe Trp Gin Leu Leu His Asp Gly lie Asp Ala lie Arg Glu lie 
50 55 60 

Pro Ala Gly Arg Trp Asp Ala Asp Ala Phe Tyr Asp Pro Asp Pro Asn 
65 70 75 80 

Ala Pro Gly Lys Met Tyr Thr Arg Leu Gly Gly Phe Leu Asp Gly Ala 

85 90 ~ 95 

Val Asp Gly Phe Asp Ala Gly Phe Phe Gly lie Thr Pro Arg Glu Val 
100 105 110 

Ala Gly Leu Asp Pro Gin Gin Arg Leu Leu Leu Glu Val Ala Trp Glu 
115 120 125 

Ala Leu Glu Arg Ala Gly Arg Pro Pro Asp Ser Leu Ala Gly Ser Asp 
13 0 13 5 14 0 

Thr Gly Val Phe He Gly He Ser Thr Asp Asp Tyr Ser Arg Leu Lys 
145 150 155 160 

Pro Thr Asp Pro Ala Leu He Asp Ala Tyr Thr Gly Thr Gly Thr Ala 

165 170 * 175 

Phe Ser Thr Ala Ala Gly Arg He Ser Tyr Leu Leu Gly Leu Gin Gly 
180 185 " 190 

Pro Asn Phe Pro Val Asp Thr Ala Cys Ser Ser Ser Leu Val Ala Val 
195 200 205 

His Leu Ala Cys Arg Ser Leu Gin Ser Arg Glu Cys Ser Met Ala Leu 
210 215 220 

Ala Gly Gly Val Asn Leu He Leu Ala Pro Glu Ser Thr He Tyr Phe 
225 230 235 " 240 
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Cys Arg Leu Arg Ala Met Ala Ala Asp Gly Arg Cys Lys Ser Phe Ala 

245 250 255 

Ala Ser Ala Asp Gly Tyr Gly Arg Gly Glu Gly Cys Gly Met Leu Val 
260 265 270 

Leu Lys Arg Leu Ser Asp Ala Thr Arg Asp Gly Asp Arg lie Leu Ala 
275 280 285 

Leu lie Arg Gly Ser Ala Val Asn His Gly Gly Arg Ser Asn Gly Leu 
290 295 300 

Thr Ala Pro Asn Gly Pro Ala Gin Glu Ala Val lie Arg Ala Ala Leu 
305 310 315 320 

Lys Asn Ala Gly Met Ala Pro Ala Asp Val Asp Tyr Val Glu Ala His 

325 330 335 

Gly Thr Gly Thr Pro Leu Gly Asp Pro lie Glu Leu Arg Ala Met Ala 
340 345 350 

Ala Val Leu Gly Glu Gly Arg Ala Val Asp Ser Pro Leu lie Val Gly 
355 360 365 

Ser Val Lys Thr Asn Phe Gly His Leu Glu Ala Ala Ala Gly lie Ala 
370 375 380 

Gly Leu lie Lys Thr lie Leu Ala Leu Gin His Arg Glu lie Pro Pro 
385 390 395 400 

His Leu His Phe Asn Ala Pro Asn Pro His Val Leu Trp Asn Glu Leu 

405 410 415 

Pro Leu Lys lie Ala Thr Ala Cys Ser Pro Trp Pro Ser Asn Gly Arg 
420 425 430 

Pro Arg Val Ala Gly Val Ser Ser Phe Gly lie Ser Gly Thr Asn Ser 
435 440 445 

His Val Val Leu Ala Glu Ala Lys Thr Asn Val Glu Ala Lys Thr Asn 
450 455 460 

Val Glu Ala Lys Thr Asn Val Glu Ala Lys Thr Ser Glu Glu Val Lys 
465 470 475 480 

Ala Ser Val Glu Ala Lys Gly Asn Val Glu Ala Lys Ala Ser Ala Ser 

485 490 495 

Val Pro Leu Leu Glu Gly Asp Ser Arg Pro Arg Ser Gly Gly Gly Gly 
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500 505 510 

Ser Gly Arg Pro Pro Ser Arg Glu Glu Val Pro Val Pro Asp Gin Leu 
515 520 525 

His Ala Glu Asp Gly Arg Glu Tyr Leu Leu Pro Leu Ser Ala Arg His 
530 535 540 

Pro Gin Ala Leu Arg Asp Leu Ala Gly Ala Tyr Arg Asp Gly Arg Phe 
545 550 555 ~ 560 

His Ala Pro Leu Ser Ala Leu Cys Ser Ala Ala Ser Leu Thr Arg Ser 

565 570 575 

His Tyr Glu His Arg Ala Ala Phe Val Ala Ser Ser Leu Pro Glu Phe 
580 585 590 

Asn Gin Leu Leu Glu Ala Phe Arg Arg Asn Glu Thr Asn Arg Gly Val 
595 600 605 

Ala Thr Gly Phe Ala Asp Pro Gly Val Arg Pro Lys Leu Ala Phe lie 
610 615 620 

Phe Ser Gly Gin Gly Gly Gin Tyr Pro Arg Met Ala Tyr Arg Leu Tyr 
625 630 635 640 

Ser Asp Glu Pro Val Phe Arg Ser Ala lie Glu Arg Cys Asp Ala Ala 
645 650 655 

Phe Arg Ser Phe Val Glu Trp Arg Leu Ala Asp Leu Leu Ala Asp Glu 
660 665 670 

Ser Gly Ala Trp Leu Ser Gin lie Asp Arg Val Gin Pro Ala Leu Phe 
675 680 685 

Ala Val Gin lie Ala Leu Val Glu Leu Leu Gin Ser Trp Gly lie Arg 
690 695 700 

Pro Asp Gly Val Ala Gly His Ser Met Gly Glu Val Ala Ala Ala His 
705 710 715 720 

Val Ala Gly lie Leu Thr Leu Glu Asp Ala Ala Arg lie lie Cys Arg 

725 730 735 

Arg Ser Arg Leu Leu Leu Gly Leu Arg Gly Arg Gly Ala Met Ala Leu 
740 745 " 750 

Val Glu Leu Pro Leu Asp Arg Ala Lys Ala Val Leu Ala Glu Arg Gly 
755 760 765 
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Leu Thr Thr Val Ser Val Ala Ala Ser Asn Gly Pro Arg Ser Thr Val 
770 775 780 

Phe Ser Gly Asp Arg Val Ala Leu Glu His Leu Lys Asp Asp Phe Glu 
785 790 795 800 

Arg Arg Gly Val Phe Cys Arg Leu lie Gin Val Asp Val Ala Ser His 

805 810 815 

Ser Ser Gin Val Asp Pro Leu Glu Asn Glu Leu Arg Gin Glu Leu Gly 
820 825 830 

Arg Val lie Ala Lys Arg Ser Ala Val Pro Phe Phe Ser Thr Val Glu 
835 840 845 

Gly Gin Leu Ser Thr Gly Glu Ala Cys Asp Ala Ser Tyr Trp Val Ala 
850 855 860 

Asn Leu Arg Gin Pro Val Arg Phe Trp Glu Ser Leu Gin Ala Met Ala 
865 870 875 880 

Gly Asp Glu Phe Thr Gin Phe Leu Glu lie Ser Pro His Pro Val Leu 

885 890 895 

Thr Pro Ser lie Glu Asp Ser Leu Arg Thr Leu Gly lie Asn Gly Leu 
900 905 910 

Val Arg Pro Val Leu Arg Arg Asp Glu Pro Glu Arg Arg Glu Leu Leu 
915 920 925 

Glu Leu Leu Ala Ala Leu Tyr Val Asn Gly Gin Arg Pro Asp Trp Arg 
930 935 940 

Ala Leu Ala Ser Ser Pro Asp Thr Arg Leu Asp Leu Pro Thr Tyr Pro 
945 950 955 960 

Trp Gin Arg Glu Arg Phe Trp Phe Ala Thr Ser Thr Arg Arg Ser Leu 

965 970 975 

Pro Ala Val Gly Gly His Pro Leu Leu Gly Arg Lys Val Glu lie Ala 
980 985 990 

Leu Ala Pro Asp Thr His Val Trp Glu Ser Val Leu Ser Leu Asp Ala 
995 1000 1005 

Leu Pro Phe Leu Ala Asp His Arg Leu Asn Glu Leu Val Val Leu Pro 
1010 1015 1020 

Gly Ala Ala Tyr Val Glu Met Ala Leu Ala Ala Ala Lys Glu Val Phe 
1025 1030 1035 1040 
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Ala Gly Gly Cys Ser Leu Glu Glu lie Arg Phe Glu Gin Met Leu Val 
1045 1050 1055 

Val Pro Ser Ala Gly Ala Ser Arg Val Gin Val He Leu Glu Gly His 
1060 1065 1070 

Ala Phe Arg He Ser Ser Leu Ala Glu Gly Gly Ser Asp Trp Thr Glu 
1075 1080 1085 

His Ala Arg Gly Thr Met Ala Ala Ala Pro Asp Lys Val Ala Pro Thr 
1090 1095 1100 

Val Ser Leu Pro Thr Leu Gly Asp Arg He Glu Gly Asp Asp Phe Tyr 
1105 1110 1115 ~ 1120 

Ala Ala Phe Ala Ser Gin Gly Met His Tyr Gly Asp Thr Phe Arg Gly 
H25 1130 ~ 1135 

He Ala Glu Val Trp Arg Arg Asp Gly Glu Ala Val Ala Arg Leu Ser 
1140 1145 1150 

Val Pro Asp Ala Val Arg Glu Ala Glu Ser Gly Tyr Thr Leu His Pro 
H55 1160 ~ 1165 

Ala Leu Leu Asp Ala Cys Leu Gin Val Leu Gly Ala Thr Leu Gly Gly 
1170 1175 1180 

Glu Gly Ser Ala Gly Pro Cys Val Pro Val Ala He Glu Arg Leu His 
1185 1190 1195 1200 

Cys Phe Gly Arg Pro Ala Gly Asp Leu Arg Val His Ala Arg Leu Thr 
1205 1210 1215 

Gly Arg Leu Glu Gly Asp Val Thr Leu Cys Asp Ala Glu Gly His Val 
1220 1225 1230 

He Leu Glu Val Gin Gly Leu Arg Ala Gin Glu Leu Glu Arg Gin Ser 
1235 1240 1245 

Glu Trp Phe His Ala Met Glu Trp Glu Pro Gin Leu Leu Ala Glu Ser 
1250 1255 1260 

Pro Thr Ala Thr Val Ser Gly Ala Trp Leu Val He Ala Asp Ala Gly 
1265 1270 1275 1280 

Gly He Ala Ala Ala Val Ala Arg Gly Leu Gly Thr Asn Thr Val Val 
1285 1290 1295 

He Ser Gly Arg Asp Ala Glu He Pro Asp Gin Pro Tyr Arg Gly Val 
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1300 1305 1310 

lie His Cys Gly Ser Leu Asp Glu Thr Glu Asp Glu Thr Asp Pro Ser 
1315 1320 1325 

Ala Ala Gly Gly Thr Ala Cys Glu Asp lie Leu Arg lie Val Gin Glu 
1330 1335 1340 

Phe Gly Val Gly Arg lie Gin Leu Thr Lys Gin Ala Ser Asp Ala Glu 
1345 1350 1355 " 1360 

Ser Gin His Pro Arg lie Trp Leu lie Thr Ala Gly Val His Ala Glu 
1365 1370 1375 

His Leu Gin Met Pro Val Val Pro Ala Arg Ala Pro Val Trp Gly Leu 
1380 1385 1390 

Gly Arg Thr lie Ala Ala Glu His Pro Glu Phe Ala Cys Thr Cys lie 
1395 1400 1405 

Asp Leu Asp Thr Ala Gly Glu Val Glu Val Gin Ala Leu Cys Arg Glu 
1410 1415 1420 

lie Leu Ala Gly Ser Ser Glu Arg Gin Gly 
1425 1430 
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